ما هیجان زده هستیم که Transform 2022 را به صورت حضوری در 19 ژوئیه و تقریباً 20 تا 28 ژوئیه بازگردانیم. برای گفتگوهای روشنگر و فرصت های شبکه هیجان انگیز به رهبران هوش مصنوعی و داده بپیوندید. امروز ثبت نام کنید!
مسیر رسیدن به «هوش تعمیمپذیر» – یعنی چیزی که بسیاری آن را علمی تخیلی میدانند – با هوش محیطی آغاز میشود. و این آینده اکنون در حال آشکار شدن است.
روهیت پراساد، معاون ارشد و دانشمند ارشد الکسا در آمازون گفت: «ما در منطقه طلایی هوش مصنوعی زندگی می کنیم، جایی که رویاها و داستان های علمی تخیلی در حال تبدیل شدن به واقعیت هستند.
پراساد امروز در re:MARS، کنفرانس آمازون در مورد یادگیری ماشینی، اتوماسیون، روباتیک و فضا، در مورد تکامل از هوش محیطی به هوش قابل تعمیم (GI) صحبت کرد.
به گفته پراساد، هوش محیطی زمانی است که هوش مصنوعی زیربنایی در همه جا در دسترس باشد، در صورت نیاز به افراد کمک کند – و همچنین یاد می گیرد که نیازها را پیش بینی کند – سپس در صورت عدم نیاز در پس زمینه محو می شود.
پراساد گفت که نمونه بارز و گام مهمی به سوی GI، الکسای آمازون است که او آن را “دستیار شخصی، مشاور، همراه” توصیف کرد.
او توضیح داد که این دستیار مجازی مجهز به 30 سیستم ML است که سیگنال های حسی مختلف را پردازش می کند. بیش از 1 میلیارد درخواست در هفته به 17 زبان در ده ها کشور دریافت می کند. به گفته او، این هواپیما همچنین به عنوان بخشی از ماموریت بدون سرنشین Artemis 1 که قرار است در ماه آگوست به فضا پرتاب شود، به ماه خواهد رفت.
یکی از ویژگی های آینده الکسا می تواند کلیپ های صوتی کوتاه را در گفتار طولانی تر ترکیب کند. پراساد مثال زد که یک مادربزرگ متوفی در حال خواندن داستانی قبل از خواب برای یک نوه است.
او گفت: «این مستلزم اختراعاتی بود که در آن باید یاد میگرفتیم که صدایی با کیفیت بالا با کمتر از یک دقیقه ضبط در مقابل ساعتها ضبط تولید کنیم. او افزود که شامل چارچوب بندی مشکل “به عنوان یک کار تبدیل صدا و نه مسیر تولید گفتار” است.
هوش محیطی واکنشی، پیشگیرانه، پیش بینی کننده
همانطور که پراساد توضیح داد، هوش محیطی هم واکنشی (پاسخ به درخواست های مستقیم) و هم فعال (پیش بینی نیازها) است. این امر از طریق استفاده از فناوریهای حسگر متعدد انجام میشود: حسگرهای بینایی، صدا، اولتراسوند، عمق، مکانیکی و حسگرهای جوی. سپس به این موارد عمل می شود.
در مجموع، این قابلیت به قابلیت های یادگیری عمیق و همچنین پردازش زبان طبیعی (NLP) نیاز دارد. «عوامل» هوش محیطی نیز خود نظارتی و خودآموز هستند، که به آنها اجازه می دهد آنچه را که می آموزند تعمیم دهند و آن را در زمینه های جدید به کار ببرند.
او گفت، برای مثال، مکانیزم خودآموز الکسا به طور خودکار ده ها میلیون نقص را در هفته تصحیح می کند – این هم خطای مشتری و هم خطا در مدل های درک زبان طبیعی خود (NLU) است.
او این را «عملیترین» مسیر به GI یا توانایی نهادهای هوش مصنوعی برای درک و یادگیری هر کار فکری که انسان میتواند توصیف کرد.
پراساد گفت: در نهایت، “به همین دلیل است که مسیر هوش محیطی به هوش تعمیم یافته منتهی می شود.”
عوامل GI در واقع چه می کنند؟
هوش قابل تعمیم دارای سه ویژگی است. «عاملهای» GI میتوانند وظایف متعددی را انجام دهند، در محیطهای متغیر تکامل یابند، و مفاهیم و اقدامات جدید را با حداقل ورودی خارجی انسان بیاموزند.
GI همچنین نیاز به دوز قابل توجهی از عقل سلیم دارد. الکسا قبلاً این را نشان میدهد، او گفت: اگر کاربر بخواهد برای مثال یک یادآور برای Super Bowl تنظیم کند، تاریخ بازی بزرگ را شناسایی میکند و در عین حال آن را به منطقه زمانی خود تبدیل میکند، سپس قبل از شروع به او یادآوری میکند. همچنین روالها را پیشنهاد میکند و ناهنجاریها را از طریق ویژگی “قوز کردن” خود تشخیص میدهد.
با این حال، او تاکید کرد که GI یک فناوری “همه چیز دانا و همه توان” نیست که بتواند هر کاری را انجام دهد.
او گفت: «ما انسانها هنوز بهترین نمونه تعمیم و استانداردی برای هوش مصنوعی هستیم.»
GI در حال حاضر در حال تحقق است، او خاطرنشان کرد: مدلهای زبان بزرگ مبتنی بر ترانسفورماتور بنیادی که با نظارت شخصی آموزش داده شدهاند، بسیاری از وظایف را با دادههای برچسبگذاری شده دستی بسیار کمتر از همیشه انجام میدهند. نمونه ای از این مدل معلم الکسا آمازون است که دانش را از NLU، تشخیص گفتار، پیش بینی گفتگو و درک صحنه بصری جمع آوری می کند.
او گفت که هدف این است که استدلال خودکار را به ارتفاعات جدیدی برسانیم، با اولین هدف “استفاده فراگیر” از دانش عام در هوش مصنوعی محاوره ای.
در تلاش برای این منظور، آمازون مجموعه داده ای را برای دانش عقل سلیم با بیش از 11000 دیالوگ تازه جمع آوری شده برای کمک به تحقیق در مکالمات دامنه باز منتشر کرده است.
این شرکت همچنین یک رویکرد مولد را ابداع کرده است که به نظر آن “قبل از صحبت کردن فکر کنید”. این شامل یادگیری عامل هوش مصنوعی برای بیرونی کردن دانش عامیانه ضمنی (“فکر”) و استفاده از یک مدل زبان بزرگ (مانند شبکه معنایی رایگان در دسترس ConceptNet) همراه با یک نمودار دانش عام است. سپس از آن دانش برای تولید پاسخ استفاده می کند (“صحبت”).
آمازون همچنین الکسا را آموزش می دهد تا به سوالات پیچیده ای که نیازمند مراحل استنتاج متعدد هستند پاسخ دهد، و همچنین “کاوش های مکالمه” را در دستگاه های محیطی فعال می کند تا کاربران مجبور نباشند تلفن یا لپ تاپ خود را برای کاوش در وب بیرون بکشند.
پراساد گفت که این قابلیت مستلزم پیشبینی جریان گفتگو از طریق یادگیری عمیق است. بازیابی اطلاعات عصبی در مقیاس وب؛ و خلاصه سازی خودکار که می تواند اطلاعات را از منابع متعدد استخراج کند.
مدیر گفتگوی مکالمات الکسا به الکسا کمک می کند تا بر اساس تعامل، تاریخچه گفتگو، ورودی ها و پرس و جوهای فعلی، مکانیسم های هدایت پرس و جو و توجه به خود تصمیم بگیرد که چه اقداماتی را انجام دهد. بازیابی اطلاعات عصبی اطلاعات را از روش ها و زبان های مختلف بر اساس میلیاردها نقطه داده استخراج می کند. مدلهای مبتنی بر ترانسفورماتور – که با استفاده از یک الگوی چند مرحلهای بهینهسازی شده برای منابع داده متنوع آموزش داده شدهاند – به تطبیق معنایی جستارها با اطلاعات مرتبط کمک میکنند. مدلهای یادگیری عمیق، اطلاعات را برای کاربران تقطیر میکنند در حالی که اطلاعات حیاتی را حفظ میکنند.
پراساد این فناوری را چندوظیفه ای، چند زبانه و چندوجهی توصیف کرد که امکان “مکالمات طبیعی تر و شبیه انسان” را فراهم می کند.
هدف نهایی این است که نه تنها هوش مصنوعی برای مشتریان در زندگی روزمره آنها مفید باشد، بلکه ساده باشد. این شهودی است، آنها می خواهند از آن استفاده کنند و حتی به آن تکیه کنند. این هوش مصنوعی است که قبل از صحبت کردن فکر میکند، مجهز به نمودارهای دانش عقل سلیم است و میتواند از طریق توضیحپذیری پاسخهایی ایجاد کند – به عبارت دیگر، توانایی پردازش پرسشها و پاسخهایی را دارد که همیشه ساده نیستند.
در نهایت، GI روز به روز بیشتر و بیشتر قابل تحقق می شود، زیرا “AI می تواند بهتر از قبل تعمیم دهد.”
برای خردهفروشی، هوش مصنوعی یاد میگیرد که از آنجا دور شود
آمازون همچنین از ML و AI برای “اختراع مجدد” خرده فروشی فیزیکی از طریق قابلیت هایی مانند اسکن کف دست و چرخ دستی های هوشمند در فروشگاه های Amazon Go خود استفاده می کند. دیلیپ کومار، معاون خردهفروشی فیزیکی و فناوری، توضیح داد که این توانایی «فقط بیرون رفتن» را فعال میکند.
کومار گفت که این شرکت اولین فروشگاه فیزیکی خود را در ژانویه 2018 افتتاح کرد. کومار گفت که این فروشگاهها از سبک راحتی 1800 فوت مربع به سبک خواربار فروشی 40000 فوت مربع تبدیل شدهاند. این شرکت اینها را با دش کارت خود در تابستان 2020 و با آمازون وان در پاییز 2020 توسعه داد.
قابلیتهای پیشرفته بینایی کامپیوتری و الگوریتمهای ML به افراد این امکان را میدهد که هنگام ورود به فروشگاه، کف دستهای خود را اسکن کنند، اقلام را برداشته، آنها را به چرخ دستیهای خود اضافه کنند و سپس از آن خارج شوند.
کومار توضیح داد که اسکن کف دست به این دلیل انتخاب شد که ژست باید عمدی و شهودی باشد. کف دست ها با اطلاعات کارت اعتباری یا بدهی مشتری مرتبط هستند و دقت تا حدی از طریق تصاویر زیرسطحی اطلاعات رگ به دست می آید.
کومار گفت که این امکان را برای دقت در “میزان بزرگی بیشتر از آنچه تشخیص چهره می تواند انجام دهد.”
در این میان گاری ها مجهز به حسگرهای وزن هستند که اقلام خاص و تعداد اقلام را شناسایی می کنند. الگوریتمهای پیشرفته همچنین میتوانند با افزایش پیچیدگی «انتخاب و برگرداندن» – یا زمانی که مشتری نظر خود را در مورد یک مورد تغییر میدهد – کنترل کنند و میتوانند صدای محیط را حذف کنند.
کومار توضیح داد که این الگوریتم ها به صورت محلی در فروشگاه، در فضای ابری و در لبه اجرا می شوند. او گفت: «ما میتوانیم بسته به محیط با هم ترکیب کنیم.
کومار گفت، هدف این است که «این فناوری به طور کامل در پسزمینه قرار گیرد» تا مشتریان بتوانند روی خرید تمرکز کنند. او گفت: «ما همه این پیچیدگیها را از مشتریان پنهان کردیم، تا آنها بتوانند «در تجربه خرید، مأموریتشان غوطهور شوند».
به طور مشابه، این شرکت اولین فروشگاه آمازون استایل خود را در ماه مه 2022 افتتاح کرد. مشتریان با ورود به فروشگاه می توانند اقلامی را در طبقه مغازه اسکن کنند که به طور خودکار به اتاق های اتصال یا میزهای حمل و نقل ارسال می شوند. همچنین پیشنهاداتی در مورد خریدهای اضافی به آنها ارائه می شود.
در نهایت، کومار گفت: «ما خیلی زود در اکتشاف هستیم و مرزهای ML را پیش میبریم. ما نوآوری های زیادی در پیش داریم.»
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.