آمازون در re:MARS به هوش محیطی و قابل تعمیم می پردازد


ما هیجان زده هستیم که Transform 2022 را به صورت حضوری در 19 ژوئیه و تقریباً 20 تا 28 ژوئیه بازگردانیم. برای گفتگوهای روشنگر و فرصت های شبکه هیجان انگیز به رهبران هوش مصنوعی و داده بپیوندید. امروز ثبت نام کنید!


مسیر رسیدن به «هوش تعمیم‌پذیر» – یعنی چیزی که بسیاری آن را علمی تخیلی می‌دانند – با هوش محیطی آغاز می‌شود. و این آینده اکنون در حال آشکار شدن است.

روهیت پراساد، معاون ارشد و دانشمند ارشد الکسا در آمازون گفت: «ما در منطقه طلایی هوش مصنوعی زندگی می کنیم، جایی که رویاها و داستان های علمی تخیلی در حال تبدیل شدن به واقعیت هستند.

پراساد امروز در re:MARS، کنفرانس آمازون در مورد یادگیری ماشینی، اتوماسیون، روباتیک و فضا، در مورد تکامل از هوش محیطی به هوش قابل تعمیم (GI) صحبت کرد.

به گفته پراساد، هوش محیطی زمانی است که هوش مصنوعی زیربنایی در همه جا در دسترس باشد، در صورت نیاز به افراد کمک کند – و همچنین یاد می گیرد که نیازها را پیش بینی کند – سپس در صورت عدم نیاز در پس زمینه محو می شود.

پراساد گفت که نمونه بارز و گام مهمی به سوی GI، الکسای آمازون است که او آن را “دستیار شخصی، مشاور، همراه” توصیف کرد.

او توضیح داد که این دستیار مجازی مجهز به 30 سیستم ML است که سیگنال های حسی مختلف را پردازش می کند. بیش از 1 میلیارد درخواست در هفته به 17 زبان در ده ها کشور دریافت می کند. به گفته او، این هواپیما همچنین به عنوان بخشی از ماموریت بدون سرنشین Artemis 1 که قرار است در ماه آگوست به فضا پرتاب شود، به ماه خواهد رفت.

یکی از ویژگی های آینده الکسا می تواند کلیپ های صوتی کوتاه را در گفتار طولانی تر ترکیب کند. پراساد مثال زد که یک مادربزرگ متوفی در حال خواندن داستانی قبل از خواب برای یک نوه است.

او گفت: «این مستلزم اختراعاتی بود که در آن باید یاد می‌گرفتیم که صدایی با کیفیت بالا با کمتر از یک دقیقه ضبط در مقابل ساعت‌ها ضبط تولید کنیم. او افزود که شامل چارچوب بندی مشکل “به عنوان یک کار تبدیل صدا و نه مسیر تولید گفتار” است.

هوش محیطی واکنشی، پیشگیرانه، پیش بینی کننده

همانطور که پراساد توضیح داد، هوش محیطی هم واکنشی (پاسخ به درخواست های مستقیم) و هم فعال (پیش بینی نیازها) است. این امر از طریق استفاده از فناوری‌های حسگر متعدد انجام می‌شود: حسگرهای بینایی، صدا، اولتراسوند، عمق، مکانیکی و حسگرهای جوی. سپس به این موارد عمل می شود.

در مجموع، این قابلیت به قابلیت های یادگیری عمیق و همچنین پردازش زبان طبیعی (NLP) نیاز دارد. «عوامل» هوش محیطی نیز خود نظارتی و خودآموز هستند، که به آنها اجازه می دهد آنچه را که می آموزند تعمیم دهند و آن را در زمینه های جدید به کار ببرند.

او گفت، برای مثال، مکانیزم خودآموز الکسا به طور خودکار ده ها میلیون نقص را در هفته تصحیح می کند – این هم خطای مشتری و هم خطا در مدل های درک زبان طبیعی خود (NLU) است.

او این را «عملی‌ترین» مسیر به GI یا توانایی نهادهای هوش مصنوعی برای درک و یادگیری هر کار فکری که انسان می‌تواند توصیف کرد.

پراساد گفت: در نهایت، “به همین دلیل است که مسیر هوش محیطی به هوش تعمیم یافته منتهی می شود.”

عوامل GI در واقع چه می کنند؟

هوش قابل تعمیم دارای سه ویژگی است. «عامل‌های» GI می‌توانند وظایف متعددی را انجام دهند، در محیط‌های متغیر تکامل یابند، و مفاهیم و اقدامات جدید را با حداقل ورودی خارجی انسان بیاموزند.

GI همچنین نیاز به دوز قابل توجهی از عقل سلیم دارد. الکسا قبلاً این را نشان می‌دهد، او گفت: اگر کاربر بخواهد برای مثال یک یادآور برای Super Bowl تنظیم کند، تاریخ بازی بزرگ را شناسایی می‌کند و در عین حال آن را به منطقه زمانی خود تبدیل می‌کند، سپس قبل از شروع به او یادآوری می‌کند. همچنین روال‌ها را پیشنهاد می‌کند و ناهنجاری‌ها را از طریق ویژگی “قوز کردن” خود تشخیص می‌دهد.

با این حال، او تاکید کرد که GI یک فناوری “همه چیز دانا و همه توان” نیست که بتواند هر کاری را انجام دهد.

او گفت: «ما انسان‌ها هنوز بهترین نمونه تعمیم و استانداردی برای هوش مصنوعی هستیم.»

GI در حال حاضر در حال تحقق است، او خاطرنشان کرد: مدل‌های زبان بزرگ مبتنی بر ترانسفورماتور بنیادی که با نظارت شخصی آموزش داده شده‌اند، بسیاری از وظایف را با داده‌های برچسب‌گذاری شده دستی بسیار کمتر از همیشه انجام می‌دهند. نمونه ای از این مدل معلم الکسا آمازون است که دانش را از NLU، تشخیص گفتار، پیش بینی گفتگو و درک صحنه بصری جمع آوری می کند.

او گفت که هدف این است که استدلال خودکار را به ارتفاعات جدیدی برسانیم، با اولین هدف “استفاده فراگیر” از دانش عام در هوش مصنوعی محاوره ای.

در تلاش برای این منظور، آمازون مجموعه داده ای را برای دانش عقل سلیم با بیش از 11000 دیالوگ تازه جمع آوری شده برای کمک به تحقیق در مکالمات دامنه باز منتشر کرده است.

این شرکت همچنین یک رویکرد مولد را ابداع کرده است که به نظر آن “قبل از صحبت کردن فکر کنید”. این شامل یادگیری عامل هوش مصنوعی برای بیرونی کردن دانش عامیانه ضمنی (“فکر”) و استفاده از یک مدل زبان بزرگ (مانند شبکه معنایی رایگان در دسترس ConceptNet) همراه با یک نمودار دانش عام است. سپس از آن دانش برای تولید پاسخ استفاده می کند (“صحبت”).

آمازون همچنین الکسا را ​​آموزش می دهد تا به سوالات پیچیده ای که نیازمند مراحل استنتاج متعدد هستند پاسخ دهد، و همچنین “کاوش های مکالمه” را در دستگاه های محیطی فعال می کند تا کاربران مجبور نباشند تلفن یا لپ تاپ خود را برای کاوش در وب بیرون بکشند.

پراساد گفت که این قابلیت مستلزم پیش‌بینی جریان گفتگو از طریق یادگیری عمیق است. بازیابی اطلاعات عصبی در مقیاس وب؛ و خلاصه سازی خودکار که می تواند اطلاعات را از منابع متعدد استخراج کند.

مدیر گفتگوی مکالمات الکسا به الکسا کمک می کند تا بر اساس تعامل، تاریخچه گفتگو، ورودی ها و پرس و جوهای فعلی، مکانیسم های هدایت پرس و جو و توجه به خود تصمیم بگیرد که چه اقداماتی را انجام دهد. بازیابی اطلاعات عصبی اطلاعات را از روش ها و زبان های مختلف بر اساس میلیاردها نقطه داده استخراج می کند. مدل‌های مبتنی بر ترانسفورماتور – که با استفاده از یک الگوی چند مرحله‌ای بهینه‌سازی شده برای منابع داده متنوع آموزش داده شده‌اند – به تطبیق معنایی جستارها با اطلاعات مرتبط کمک می‌کنند. مدل‌های یادگیری عمیق، اطلاعات را برای کاربران تقطیر می‌کنند در حالی که اطلاعات حیاتی را حفظ می‌کنند.

پراساد این فناوری را چندوظیفه ای، چند زبانه و چندوجهی توصیف کرد که امکان “مکالمات طبیعی تر و شبیه انسان” را فراهم می کند.

هدف نهایی این است که نه تنها هوش مصنوعی برای مشتریان در زندگی روزمره آنها مفید باشد، بلکه ساده باشد. این شهودی است، آنها می خواهند از آن استفاده کنند و حتی به آن تکیه کنند. این هوش مصنوعی است که قبل از صحبت کردن فکر می‌کند، مجهز به نمودارهای دانش عقل سلیم است و می‌تواند از طریق توضیح‌پذیری پاسخ‌هایی ایجاد کند – به عبارت دیگر، توانایی پردازش پرسش‌ها و پاسخ‌هایی را دارد که همیشه ساده نیستند.

در نهایت، GI روز به روز بیشتر و بیشتر قابل تحقق می شود، زیرا “AI می تواند بهتر از قبل تعمیم دهد.”

برای خرده‌فروشی، هوش مصنوعی یاد می‌گیرد که از آنجا دور شود

آمازون همچنین از ML و AI برای “اختراع مجدد” خرده فروشی فیزیکی از طریق قابلیت هایی مانند اسکن کف دست و چرخ دستی های هوشمند در فروشگاه های Amazon Go خود استفاده می کند. دیلیپ کومار، معاون خرده‌فروشی فیزیکی و فناوری، توضیح داد که این توانایی «فقط بیرون رفتن» را فعال می‌کند.

کومار گفت که این شرکت اولین فروشگاه فیزیکی خود را در ژانویه 2018 افتتاح کرد. کومار گفت که این فروشگاه‌ها از سبک راحتی 1800 فوت مربع به سبک خواربار فروشی 40000 فوت مربع تبدیل شده‌اند. این شرکت اینها را با دش کارت خود در تابستان 2020 و با آمازون وان در پاییز 2020 توسعه داد.

قابلیت‌های پیشرفته بینایی کامپیوتری و الگوریتم‌های ML به افراد این امکان را می‌دهد که هنگام ورود به فروشگاه، کف دست‌های خود را اسکن کنند، اقلام را برداشته، آن‌ها را به چرخ دستی‌های خود اضافه کنند و سپس از آن خارج شوند.

کومار توضیح داد که اسکن کف دست به این دلیل انتخاب شد که ژست باید عمدی و شهودی باشد. کف دست ها با اطلاعات کارت اعتباری یا بدهی مشتری مرتبط هستند و دقت تا حدی از طریق تصاویر زیرسطحی اطلاعات رگ به دست می آید.

کومار گفت که این امکان را برای دقت در “میزان بزرگی بیشتر از آنچه تشخیص چهره می تواند انجام دهد.”

در این میان گاری ها مجهز به حسگرهای وزن هستند که اقلام خاص و تعداد اقلام را شناسایی می کنند. الگوریتم‌های پیشرفته همچنین می‌توانند با افزایش پیچیدگی «انتخاب و برگرداندن» – یا زمانی که مشتری نظر خود را در مورد یک مورد تغییر می‌دهد – کنترل کنند و می‌توانند صدای محیط را حذف کنند.

کومار توضیح داد که این الگوریتم ها به صورت محلی در فروشگاه، در فضای ابری و در لبه اجرا می شوند. او گفت: «ما می‌توانیم بسته به محیط با هم ترکیب کنیم.

کومار گفت، هدف این است که «این فناوری به طور کامل در پس‌زمینه قرار گیرد» تا مشتریان بتوانند روی خرید تمرکز کنند. او گفت: «ما همه این پیچیدگی‌ها را از مشتریان پنهان کردیم، تا آنها بتوانند «در تجربه خرید، مأموریت‌شان غوطه‌ور شوند».

به طور مشابه، این شرکت اولین فروشگاه آمازون استایل خود را در ماه مه 2022 افتتاح کرد. مشتریان با ورود به فروشگاه می توانند اقلامی را در طبقه مغازه اسکن کنند که به طور خودکار به اتاق های اتصال یا میزهای حمل و نقل ارسال می شوند. همچنین پیشنهاداتی در مورد خریدهای اضافی به آنها ارائه می شود.

در نهایت، کومار گفت: «ما خیلی زود در اکتشاف هستیم و مرزهای ML را پیش می‌بریم. ما نوآوری های زیادی در پیش داریم.»

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.