محققان MIT مدل های زبان خودآموزی را توسعه می دهند که عملکرد بهتری از همتایان بزرگتر دارند


در تاریخ 11 تا 12 ژوئیه به مدیران ارشد در سانفرانسیسکو بپیوندید تا بشنوید که چگونه رهبران سرمایه‌گذاری‌های هوش مصنوعی را برای موفقیت ادغام و بهینه می‌کنند.. بیشتر بدانید


محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) به پیشرفت چشمگیری در مدل‌سازی زبان در حوزه مدل‌های زبانی بزرگ (LLM) دست یافته‌اند.

تیم CSAIL پیشگام رویکردی نوآورانه برای مدل‌سازی زبان است که این باور مرسوم را که مدل‌های کوچک‌تر دارای قابلیت‌های محدودی هستند، به چالش می‌کشد. این تحقیق یک مدل مقیاس‌پذیر و خودآموز معرفی می‌کند که تا 500 برابر در تکالیف خاص درک زبان از همتایان بزرگ‌تر پیشی می‌گیرد، همگی بدون اتکا به حاشیه‌نویسی‌های تولید شده توسط انسان.

الگوریتم توسعه یافته توسط تیم MIT، با نام “SimPLE” (ویرایش ساده شبه برچسب)، از خودآموزی استفاده می کند، تکنیکی که به مدل اجازه می دهد از پیش بینی های خود بیاموزد و در نتیجه نیاز به داده های آموزشی مشروح اضافی را از بین می برد. این مدل برای مقابله با چالش تولید برچسب های نادرست در طول خودآموزی ابداع شد.

قابل ذکر است، تیم تحقیقاتی ادعا می کند که این رویکرد ابداعی به طور قابل توجهی عملکرد مدل را در کارهای مختلف افزایش می دهد و از مدل های قابل توجهی مانند LaMDA، FLAN و سایر مدل های GPT گوگل پیشی می گیرد.

رویداد

تبدیل 2023

در 11 تا 12 جولای در سانفرانسیسکو به ما بپیوندید، جایی که مدیران ارشد نحوه ادغام و بهینه سازی سرمایه گذاری های هوش مصنوعی برای موفقیت و اجتناب از دام های رایج را به اشتراک می گذارند.

اکنون ثبت نام کنید

یک انقلاب (اما دامنه محدود)

در مقاله آنها دلبستگی به عنوان خودآموزان قوی، تیم تحقیقاتی MIT این استدلال را ارائه می دهد که در حالی که پیشرفت های اخیر در تولید زبان با LLM انقلابی را به همراه داشته است، این مدل ها در درک وظایف دارای محدودیت مشخصی هستند.

Hongyin Luo، دانشیار فوق دکتری MIT CSAIL و نویسنده ارشد تحقیق، به VentureBeat گفت: «ماشین‌حساب‌های دیجیتال در محاسبات بهتر از GPT-4 هستند، زیرا بر اساس اصول حسابی طراحی شده‌اند. «مدل کوچک ما برای درک اصل اصلی درک زبان – مستلزم متنی – آموزش دیده است، در حالی که LLM ها به صراحت درباره آن نمی آموزند. با هدف روشن یادگیری مستلزم زمینه‌ای، کارایی پارامتر مدل ما بسیار بالاتر از LLM است، بنابراین عملکرد خوبی در وظایف NLU حاصل می‌شود.

این تحقیق همچنین بیان می‌کند که به بیان ساده، یک مدل مستلزم زمینه‌ای شایسته نیز باید به عنوان یک مدل درک زبان طبیعی (NLU) برتر باشد.

علاوه بر این، تیم CSAIL معتقد است که پیامدهای این تحقیق فراتر از افزایش صرف در عملکرد است. این تصور رایج که مدل‌های بزرگ‌تر ذاتا برتر هستند را به چالش می‌کشد و پتانسیل مدل‌های کوچک‌تر را به‌عنوان جایگزین‌هایی به همان اندازه قدرتمند و پایدار از نظر زیست‌محیطی برجسته می‌کند.

تقویت درک مدل زبان از طریق دلبستگی متنی

تیم MIT CSAIL برای ارتقای درک مدل از وظایف زبانی مختلف، بر مفاهیم متنی تمرکز کرد. دلالت متنی ارتباط بین دو جمله را نشان می دهد که به موجب آن اگر یک جمله (مقدمات) درست باشد، احتمال می رود جمله دیگر (فرضیه) نیز صادق باشد.

با آموزش مدل با استفاده از مدلی که این روابط را تشخیص می‌دهد، محققان توانستند اعلان‌هایی را برای ارزیابی اینکه آیا اطلاعات خاصی توسط یک جمله یا عبارت معین در وظایف مختلف مستلزم است یا خیر، ایجاد کنند. این تطبیق صفر شات به طور قابل توجهی تطبیق پذیری و سازگاری مدل را افزایش داد.

Luo از MIT به VentureBeat گفت که اگرچه LLM ها توانایی های چشمگیری در تولید زبان، هنر و کد به نمایش گذاشته اند، اما هزینه های محاسباتی قابل توجهی و خطرات حفظ حریم خصوصی در هنگام مدیریت داده های حساس را به همراه دارند. برعکس، مدل‌های کوچک‌تر از لحاظ تاریخی از همتایان بزرگ‌تر خود در کارهای چندوظیفه‌ای و با نظارت ضعیف عقب افتاده‌اند.

برای مقابله با این چالش‌ها، محققان MIT CSAIL از مجموعه داده‌های استنتاج منطقی مبتنی بر زبان طبیعی برای توسعه مدل‌های کوچک‌تر استفاده کردند که از مدل‌های بسیار بزرگ‌تر عملکرد بهتری داشتند. علاوه بر این، محققان با گنجاندن مفهوم دلالت متنی، به مدل‌ها توانایی درک طیف وسیعی از وظایف را دادند.

سازگاری بدون آموزش اضافی

این مدل‌ها تحت آموزش قرار گرفتند تا مشخص شود که آیا اطلاعات خاصی در یک جمله یا عبارت معین وجود دارد یا خیر، در نتیجه آنها را قادر می‌سازد تا با وظایف مختلف بدون نیاز به آموزش اضافی سازگار شوند.

گفت: “مزایای خودآموزی این است که مدل می تواند به طور خودکار مقدار زیادی از داده ها را برچسب گذاری کند (ایجاد شبه برچسب ها)، اما خطر این است که برچسب های کاذب حاوی پیش بینی های اشتباه هستند که ممکن است مدل را گمراه کند یا باعث تطبیق بیش از حد شود.” لو روش SimPLE ما از تمام خطوط پایه خودآموزی بهتر عمل می کند. این روش دو استراتژی کلاسیک هوش مصنوعی را برای استحکام ترکیب می‌کند: تخمین عدم قطعیت و رای‌گیری، و مجموعه دقیق‌تری از پیش‌بینی‌ها را ارائه می‌دهد.

لو توضیح داد که آموزش مدل زبان به طور سنتی نیازمند حاشیه نویسی دستی داده ها توسط انسان یا استفاده از API های LLM است. با این حال، حاشیه نویس های انسانی اغلب داده های حساس را برچسب گذاری می کنند و در نتیجه حریم خصوصی را به خطر می اندازند. علاوه بر این، انتقال داده‌ها به حاشیه‌نویس‌های شخص ثالث یا API OpenAI ممکن است منجر به افشای ناخواسته اطلاعات بسیار حساس شود.

او توضیح داد: “روش ما امکان حاشیه نویسی داده ها را بدون دیدن داده ها فراهم می کند.” یک حاشیه نویس فقط باید الگویی بنویسد که کار را توصیف کند. با این الگو، سیستم ما رابطه بین پاسخ و سوال را پیش‌بینی می‌کند و برچسب‌هایی با کیفیت بالا تولید می‌کند. با انجام این کار، مجموعه داده بدون به اشتراک گذاشتن هیچ داده ای با حاشیه نویس، حاشیه نویسی می شود.

بازتعریف توسعه مدل هوش مصنوعی از طریق خودآموزی

تیم تحقیقاتی MIT ادعا می‌کند که مجموعه مدل‌های کوچک‌تر تطبیق‌پذیری را در طیف گسترده‌ای از وظایف هوش مصنوعی – از طبقه‌بندی احساسات تا دسته‌بندی اخبار – نشان می‌دهد و مهارت استثنایی در تشخیص رابطه بین دو مؤلفه متنی را نشان می‌دهد.

این مدل ها همچنین می توانند احساسات را از اظهارات استنباط کنند و موضوع مقاله های خبری را بر اساس محتوای آنها مشخص کنند. محققان با تصور مجدد وظایف مختلف NLU به عنوان وظایف مستلزم به نتایج قابل توجهی دست یافتند.

به گفته لو، مدل‌های مستلزم خودآموز، که شامل 350 میلیون پارامتر هستند، از مدل‌های زبان نظارت شده با 137 تا 175 میلیارد پارامتر بهتر عمل می‌کنند. او قویاً معتقد است که این کار پیشگام پتانسیل بازتعریف چشم انداز هوش مصنوعی و ML را دارد و راه حل مدل سازی زبان را ارائه می دهد که مقیاس پذیرتر، قابل اعتمادتر و مقرون به صرفه تر است.

هسته اصلی مدل پیش‌بینی روابط مستلزم است، در حالی که LLM‌ها پیش‌بینی می‌کنند که چگونه می‌توان چیزها را شبیه به داده‌های آموزشی خواند.

لو افزود: “این باعث می شود مدل ما برای درک زبان مناسب تر و کارآمدتر باشد.” مدل ما بهتر از مدل‌های LLM و مدل‌های سنتی مبتنی بر BERT که با برچسب‌های تولید شده توسط انسان آموزش دیده‌اند، عمل می‌کند.»

هموار کردن راه برای آموزش مدل زبان مقرون به صرفه

مقاله‌ای که این تحقیق را که توسط لو، جیمز گلس و یون کیم نوشته شده است، در ماه جولای در نشست انجمن زبان‌شناسی محاسباتی در تورنتو، کانادا ارائه می‌شود. این پروژه از برنامه هوش مصنوعی نوآوری هنگ کنگ پشتیبانی می شود.

این تحقیق با رویکرد پیشگامانه خود، در تلاش است تا زمینه ای را برای فناوری های هوش مصنوعی آینده ایجاد کند که مقیاس پذیری، حفظ حریم خصوصی و پایداری را در اولویت قرار می دهد.

لو گفت که این مدل در مقایسه با GPT-3-175B تنها 1/500 پارامترها را شامل می شود که استقرار آن را به طور قابل توجهی آسان تر می کند و در نتیجه استنباط سریع تر انجام می دهد. تیم CSAIL تاکید کرد که سازمان‌ها اکنون می‌توانند مدل‌های چندوظیفه‌ای کارآمد و قوی را بدون به خطر انداختن حریم خصوصی داده‌ها یا تکیه بر منابع محاسباتی گران‌قیمت از طریق تحقیق به کار گیرند.

لو گفت: «گام بعدی ما شامل استفاده از مدل‌های مستلزم در کارهای مختلف مرتبط با زبان است. «در حال حاضر، ما درگیر آموزش مشترک با LLMها هستیم تا از مزایای آنها استفاده کنیم و قابلیت‌های مدل‌های خودآموز کارآمد خود را افزایش دهیم. علاوه بر این، ما در حال کار بر روی استفاده از مدل‌های مستلزم برای اندازه‌گیری همسویی بین یک ادعا و اصول واقعی/اخلاقی هستیم که به تشخیص اطلاعات غلط ماشینی و تولید شده توسط انسان، سخنان نفرت‌انگیز و کلیشه‌ها کمک می‌کند.»

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.