در تاریخ 11 تا 12 ژوئیه به مدیران ارشد در سانفرانسیسکو بپیوندید تا بشنوید که چگونه رهبران سرمایهگذاریهای هوش مصنوعی را برای موفقیت ادغام و بهینه میکنند.. بیشتر بدانید
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) به پیشرفت چشمگیری در مدلسازی زبان در حوزه مدلهای زبانی بزرگ (LLM) دست یافتهاند.
تیم CSAIL پیشگام رویکردی نوآورانه برای مدلسازی زبان است که این باور مرسوم را که مدلهای کوچکتر دارای قابلیتهای محدودی هستند، به چالش میکشد. این تحقیق یک مدل مقیاسپذیر و خودآموز معرفی میکند که تا 500 برابر در تکالیف خاص درک زبان از همتایان بزرگتر پیشی میگیرد، همگی بدون اتکا به حاشیهنویسیهای تولید شده توسط انسان.
الگوریتم توسعه یافته توسط تیم MIT، با نام “SimPLE” (ویرایش ساده شبه برچسب)، از خودآموزی استفاده می کند، تکنیکی که به مدل اجازه می دهد از پیش بینی های خود بیاموزد و در نتیجه نیاز به داده های آموزشی مشروح اضافی را از بین می برد. این مدل برای مقابله با چالش تولید برچسب های نادرست در طول خودآموزی ابداع شد.
قابل ذکر است، تیم تحقیقاتی ادعا می کند که این رویکرد ابداعی به طور قابل توجهی عملکرد مدل را در کارهای مختلف افزایش می دهد و از مدل های قابل توجهی مانند LaMDA، FLAN و سایر مدل های GPT گوگل پیشی می گیرد.
رویداد
تبدیل 2023
در 11 تا 12 جولای در سانفرانسیسکو به ما بپیوندید، جایی که مدیران ارشد نحوه ادغام و بهینه سازی سرمایه گذاری های هوش مصنوعی برای موفقیت و اجتناب از دام های رایج را به اشتراک می گذارند.
اکنون ثبت نام کنید
یک انقلاب (اما دامنه محدود)
در مقاله آنها دلبستگی به عنوان خودآموزان قوی، تیم تحقیقاتی MIT این استدلال را ارائه می دهد که در حالی که پیشرفت های اخیر در تولید زبان با LLM انقلابی را به همراه داشته است، این مدل ها در درک وظایف دارای محدودیت مشخصی هستند.
Hongyin Luo، دانشیار فوق دکتری MIT CSAIL و نویسنده ارشد تحقیق، به VentureBeat گفت: «ماشینحسابهای دیجیتال در محاسبات بهتر از GPT-4 هستند، زیرا بر اساس اصول حسابی طراحی شدهاند. «مدل کوچک ما برای درک اصل اصلی درک زبان – مستلزم متنی – آموزش دیده است، در حالی که LLM ها به صراحت درباره آن نمی آموزند. با هدف روشن یادگیری مستلزم زمینهای، کارایی پارامتر مدل ما بسیار بالاتر از LLM است، بنابراین عملکرد خوبی در وظایف NLU حاصل میشود.
این تحقیق همچنین بیان میکند که به بیان ساده، یک مدل مستلزم زمینهای شایسته نیز باید به عنوان یک مدل درک زبان طبیعی (NLU) برتر باشد.
علاوه بر این، تیم CSAIL معتقد است که پیامدهای این تحقیق فراتر از افزایش صرف در عملکرد است. این تصور رایج که مدلهای بزرگتر ذاتا برتر هستند را به چالش میکشد و پتانسیل مدلهای کوچکتر را بهعنوان جایگزینهایی به همان اندازه قدرتمند و پایدار از نظر زیستمحیطی برجسته میکند.
تقویت درک مدل زبان از طریق دلبستگی متنی
تیم MIT CSAIL برای ارتقای درک مدل از وظایف زبانی مختلف، بر مفاهیم متنی تمرکز کرد. دلالت متنی ارتباط بین دو جمله را نشان می دهد که به موجب آن اگر یک جمله (مقدمات) درست باشد، احتمال می رود جمله دیگر (فرضیه) نیز صادق باشد.
با آموزش مدل با استفاده از مدلی که این روابط را تشخیص میدهد، محققان توانستند اعلانهایی را برای ارزیابی اینکه آیا اطلاعات خاصی توسط یک جمله یا عبارت معین در وظایف مختلف مستلزم است یا خیر، ایجاد کنند. این تطبیق صفر شات به طور قابل توجهی تطبیق پذیری و سازگاری مدل را افزایش داد.
Luo از MIT به VentureBeat گفت که اگرچه LLM ها توانایی های چشمگیری در تولید زبان، هنر و کد به نمایش گذاشته اند، اما هزینه های محاسباتی قابل توجهی و خطرات حفظ حریم خصوصی در هنگام مدیریت داده های حساس را به همراه دارند. برعکس، مدلهای کوچکتر از لحاظ تاریخی از همتایان بزرگتر خود در کارهای چندوظیفهای و با نظارت ضعیف عقب افتادهاند.
برای مقابله با این چالشها، محققان MIT CSAIL از مجموعه دادههای استنتاج منطقی مبتنی بر زبان طبیعی برای توسعه مدلهای کوچکتر استفاده کردند که از مدلهای بسیار بزرگتر عملکرد بهتری داشتند. علاوه بر این، محققان با گنجاندن مفهوم دلالت متنی، به مدلها توانایی درک طیف وسیعی از وظایف را دادند.
سازگاری بدون آموزش اضافی
این مدلها تحت آموزش قرار گرفتند تا مشخص شود که آیا اطلاعات خاصی در یک جمله یا عبارت معین وجود دارد یا خیر، در نتیجه آنها را قادر میسازد تا با وظایف مختلف بدون نیاز به آموزش اضافی سازگار شوند.
گفت: “مزایای خودآموزی این است که مدل می تواند به طور خودکار مقدار زیادی از داده ها را برچسب گذاری کند (ایجاد شبه برچسب ها)، اما خطر این است که برچسب های کاذب حاوی پیش بینی های اشتباه هستند که ممکن است مدل را گمراه کند یا باعث تطبیق بیش از حد شود.” لو روش SimPLE ما از تمام خطوط پایه خودآموزی بهتر عمل می کند. این روش دو استراتژی کلاسیک هوش مصنوعی را برای استحکام ترکیب میکند: تخمین عدم قطعیت و رایگیری، و مجموعه دقیقتری از پیشبینیها را ارائه میدهد.
لو توضیح داد که آموزش مدل زبان به طور سنتی نیازمند حاشیه نویسی دستی داده ها توسط انسان یا استفاده از API های LLM است. با این حال، حاشیه نویس های انسانی اغلب داده های حساس را برچسب گذاری می کنند و در نتیجه حریم خصوصی را به خطر می اندازند. علاوه بر این، انتقال دادهها به حاشیهنویسهای شخص ثالث یا API OpenAI ممکن است منجر به افشای ناخواسته اطلاعات بسیار حساس شود.
او توضیح داد: “روش ما امکان حاشیه نویسی داده ها را بدون دیدن داده ها فراهم می کند.” یک حاشیه نویس فقط باید الگویی بنویسد که کار را توصیف کند. با این الگو، سیستم ما رابطه بین پاسخ و سوال را پیشبینی میکند و برچسبهایی با کیفیت بالا تولید میکند. با انجام این کار، مجموعه داده بدون به اشتراک گذاشتن هیچ داده ای با حاشیه نویس، حاشیه نویسی می شود.
بازتعریف توسعه مدل هوش مصنوعی از طریق خودآموزی
تیم تحقیقاتی MIT ادعا میکند که مجموعه مدلهای کوچکتر تطبیقپذیری را در طیف گستردهای از وظایف هوش مصنوعی – از طبقهبندی احساسات تا دستهبندی اخبار – نشان میدهد و مهارت استثنایی در تشخیص رابطه بین دو مؤلفه متنی را نشان میدهد.
این مدل ها همچنین می توانند احساسات را از اظهارات استنباط کنند و موضوع مقاله های خبری را بر اساس محتوای آنها مشخص کنند. محققان با تصور مجدد وظایف مختلف NLU به عنوان وظایف مستلزم به نتایج قابل توجهی دست یافتند.
به گفته لو، مدلهای مستلزم خودآموز، که شامل 350 میلیون پارامتر هستند، از مدلهای زبان نظارت شده با 137 تا 175 میلیارد پارامتر بهتر عمل میکنند. او قویاً معتقد است که این کار پیشگام پتانسیل بازتعریف چشم انداز هوش مصنوعی و ML را دارد و راه حل مدل سازی زبان را ارائه می دهد که مقیاس پذیرتر، قابل اعتمادتر و مقرون به صرفه تر است.
هسته اصلی مدل پیشبینی روابط مستلزم است، در حالی که LLMها پیشبینی میکنند که چگونه میتوان چیزها را شبیه به دادههای آموزشی خواند.
لو افزود: “این باعث می شود مدل ما برای درک زبان مناسب تر و کارآمدتر باشد.” مدل ما بهتر از مدلهای LLM و مدلهای سنتی مبتنی بر BERT که با برچسبهای تولید شده توسط انسان آموزش دیدهاند، عمل میکند.»
هموار کردن راه برای آموزش مدل زبان مقرون به صرفه
مقالهای که این تحقیق را که توسط لو، جیمز گلس و یون کیم نوشته شده است، در ماه جولای در نشست انجمن زبانشناسی محاسباتی در تورنتو، کانادا ارائه میشود. این پروژه از برنامه هوش مصنوعی نوآوری هنگ کنگ پشتیبانی می شود.
این تحقیق با رویکرد پیشگامانه خود، در تلاش است تا زمینه ای را برای فناوری های هوش مصنوعی آینده ایجاد کند که مقیاس پذیری، حفظ حریم خصوصی و پایداری را در اولویت قرار می دهد.
لو گفت که این مدل در مقایسه با GPT-3-175B تنها 1/500 پارامترها را شامل می شود که استقرار آن را به طور قابل توجهی آسان تر می کند و در نتیجه استنباط سریع تر انجام می دهد. تیم CSAIL تاکید کرد که سازمانها اکنون میتوانند مدلهای چندوظیفهای کارآمد و قوی را بدون به خطر انداختن حریم خصوصی دادهها یا تکیه بر منابع محاسباتی گرانقیمت از طریق تحقیق به کار گیرند.
لو گفت: «گام بعدی ما شامل استفاده از مدلهای مستلزم در کارهای مختلف مرتبط با زبان است. «در حال حاضر، ما درگیر آموزش مشترک با LLMها هستیم تا از مزایای آنها استفاده کنیم و قابلیتهای مدلهای خودآموز کارآمد خود را افزایش دهیم. علاوه بر این، ما در حال کار بر روی استفاده از مدلهای مستلزم برای اندازهگیری همسویی بین یک ادعا و اصول واقعی/اخلاقی هستیم که به تشخیص اطلاعات غلط ماشینی و تولید شده توسط انسان، سخنان نفرتانگیز و کلیشهها کمک میکند.»
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.