چگونه MIT در عصر کمبود داده های با کیفیت، مدل های زبان هوش مصنوعی را آموزش می دهد


جلسات درخواستی از اجلاس Low-Code/No-Code را بررسی کنید تا بیاموزید چگونه با ارتقاء مهارت و مقیاس‌بندی توسعه‌دهندگان شهروند، نوآوری موفقیت‌آمیز و دستیابی به کارایی داشته باشید. الان ببین.


بهبود استحکام مدل‌های یادگیری ماشینی (ML) برای وظایف زبان طبیعی در سال‌های اخیر به یک موضوع اصلی هوش مصنوعی (AI) تبدیل شده است. مدل‌های زبان بزرگ (LLM) همیشه یکی از پرطرفدارترین حوزه‌ها در تحقیقات هوش مصنوعی بوده است که با افزایش هوش مصنوعی و شرکت‌هایی که برای انتشار معماری‌هایی رقابت می‌کنند که می‌توانند محتوای قابل خواندن و حتی کدهای کامپیوتری را ایجاد کنند، حمایت می‌شود.

مدل‌های زبان به طور سنتی با استفاده از متون آنلاین از منابعی مانند ویکی‌پدیا، داستان‌های خبری، مقالات علمی و رمان‌ها آموزش داده می‌شوند. با این حال، در سال‌های اخیر، تمایل به آموزش این مدل‌ها بر روی افزایش حجم داده‌ها به منظور بهبود دقت و تطبیق پذیری آنها بوده است.

اما، به گفته تیمی از پیش‌بینی‌کنندگان هوش مصنوعی، نگرانی در افق وجود دارد: ممکن است داده‌های ما برای آموزش آنها تمام شود. محققان Epoch در مطالعه‌ای تاکید می‌کنند که داده‌های با کیفیت بالا که عموماً برای آموزش مدل‌های زبان استفاده می‌شوند ممکن است در اوایل سال 2026 کاهش یابد. از آنجایی که توسعه‌دهندگان مدل‌های پیچیده‌تری با قابلیت‌های برتر ایجاد می‌کنند، باید متون بیشتری برای آموزش آن‌ها جمع‌آوری کنند، و محققان LLM باید اکنون به طور فزاینده ای نگران تمام شدن داده های با کیفیت است.

Kalyan Veeramachaneni، محقق اصلی در آزمایشگاه MIT Information and Decision Systems و رهبر گروه Data-to-AI آزمایشگاه، ممکن است راه حل را پیدا کرده باشد. در مقاله ای در مورد بازنویسی و بازگشت (“R&R: Metric-Guided Adversarial Sentence Generation”) که اخیراً در یافته های AACL-IJCNLP 2022 منتشر شده است، چارچوب پیشنهادی می تواند داده های با کیفیت پایین (از منابعی مانند توییتر و 4Chan) را تغییر داده و تبدیل کند. داده‌های با کیفیت بالا (مانند منابع دارای فیلترهای ویرایشی، مانند ویکی‌پدیا و وب‌سایت‌های صنعتی)، افزایش میزان نوع صحیح داده‌ها برای آزمایش و آموزش مدل‌های زبان.

رویداد

اجلاس امنیت هوشمند

نقش حیاتی AI و ML در امنیت سایبری و مطالعات موردی خاص صنعت را در 8 دسامبر بیاموزید. امروز برای پاس رایگان خود ثبت نام کنید.

اکنون ثبت نام کنید

کمبود داده بزرگ است

محققان هوش مصنوعی زبان به طور کلی داده‌هایی را که برای آموزش مدل‌ها استفاده می‌کنند به داده‌های با کیفیت بالا و داده‌های با کیفیت پایین تقسیم می‌کنند. داده‌های باکیفیت عموماً به‌عنوان منابعی تعریف می‌شوند که «از فیلترهای مفید یا کیفیت عبور کرده‌اند» همانطور که در مطالعه Epoch اشاره شد. به عبارت دیگر، از نظر کیفیت ویراستاری، چه به صورت حرفه ای یا از طریق بررسی همتایان (در مورد مقالات علمی، رمان های منتشر شده، ویکی پدیا و غیره) یا تعامل مثبت توسط بسیاری از کاربران (مانند محتوای وب فیلتر شده) بررسی شده است.

داده‌های دسته‌های با کیفیت پایین شامل متن‌های بدون فیلتر و تولید شده توسط کاربر مانند پست‌های رسانه‌های اجتماعی یا نظرات در وب‌سایت‌هایی مانند 4chan است و این موارد بسیار بیشتر از مواردی است که با کیفیت بالا رتبه‌بندی شده‌اند.

آموزش LLM با مجموعه داده های معیوب و با کیفیت پایین می تواند منجر به مشکلات زیادی شود:

  • نمونه‌های دارای برچسب نادرست در مجموعه داده، نویز را به آموزش وارد می‌کنند که می‌تواند مدل را اشتباه گرفته و کیفیت مدل را کاهش دهد.
  • همبستگی‌های جعلی (مثلاً جملاتی با کلمات خاص همیشه یک برچسب خاص دریافت می‌کنند) مدل را تشویق می‌کند تا میانبرهای نادرست را انتخاب کند و آن را به سمت اشتباه در سناریوهای واقعی سوق دهد.
  • سوگیری داده ها (به عنوان مثال، مجموعه داده ای که فقط حاوی متن از یک گروه خاص از افراد است) باعث می شود مدل در ورودی های خاص عملکرد ضعیفی داشته باشد. مجموعه داده های با کیفیت بالا می تواند این مشکلات را کاهش دهد.

از آنجایی که مدل‌های ML برای یادگیری نحوه پیش‌بینی به داده‌های آموزشی متکی هستند، کیفیت داده‌ها به طور چشمگیری بر کیفیت مدل تأثیر می‌گذارد. در نتیجه، محققان اغلب فقط مدل‌هایی را با داده‌های با کیفیت بالا آموزش می‌دهند، زیرا می‌خواهند مدل‌هایشان تسلط زبانی برتر را دوباره ایجاد کنند. آموزش LLM ها با استفاده از نمونه های متنی با کیفیت بالا، مدل را قادر می سازد تا پیچیدگی ها و پیچیدگی های ذاتی هر زبان را درک کند. این روش نتایج برجسته ای برای مدل های زبان پیچیده مانند GPT-3 به همراه داشته است.

Veeramachaneni می‌گوید که هدف برای تولید متن هوشمندانه‌تر و واضح‌تر نیز می‌تواند در آموزش LLMها در گفتمان انسانی واقعی مفید باشد.

Veeramachaneni به VentureBeat گفت: «متن پست‌های رسانه‌های اجتماعی، وبلاگ و غیره شما ممکن است به این کیفیت بالا دست پیدا نکند که کیفیت کلی مجموعه آموزشی را پایین می‌آورد. “ما فکر کردیم، آیا می‌توانیم از داده‌های با کیفیت بالا برای آموزش LLMها (که اکنون به LLMهایی که بر روی داده‌های با کیفیت بالا آموزش دیده‌اند دسترسی داریم) استفاده کنیم و از آن LLMها برای افزایش کیفیت داده‌های دیگر استفاده کنیم؟

MIT به چالش های فعلی در توسعه LLM می پردازد

Veeramachaneni توضیح داد که آموزش LLM ها به حجم عظیمی از داده های آموزشی و منابع محاسباتی نیاز دارد که فقط برای غول های فناوری در دسترس است. این بدان معناست که بیشتر محققان فردی باید به LLMهای تولید شده و منتشر شده توسط غول های فناوری وابسته باشند تا اینکه خودشان را بسازند.

او گفت که علیرغم بزرگتر شدن LLM ها و نیاز به داده های آموزشی بیشتر، هنوز هم در بیشتر مواقع تنگنا قدرت محاسباتی است.

«داده‌های با کیفیت بالا مشروح شده برای کارهای پایین دستی [is] سخت به دست آوردن حتی اگر روشی برای ایجاد جملات با کیفیت بالاتر از جملات با کیفیت پایین طراحی کنیم، چگونه متوجه می شویم که روش کار را به درستی انجام داده است؟ درخواست از انسان برای حاشیه نویسی داده ها گران است و مقیاس پذیر نیست.

او گفت: “بنابراین، R&R روشی را برای استفاده از LLMs به طور قابل اعتماد برای بهبود کیفیت جملات ارائه می دهد.”

Veeramachaneni معتقد است که از نظر کیفیت مدل، LLM های فعلی نیاز به بهبود توانایی خود در تولید اسناد طولانی دارند.

«مدل‌های فعلی می‌توانند با چند جمله به سؤالات پاسخ دهند، اما نمی‌توانند داستانی تخیلی با موضوع و طرح منطقی بنویسند. بهبود معماری برای LMها لازم است تا متن طولانی تر را مدیریت کنند. همچنین نگرانی‌های بیشتری در مورد تأثیرات منفی بالقوه LLM وجود دارد. به عنوان مثال، LLM ها ممکن است اطلاعات شخصی را از داده های آموزشی به خاطر بسپارند و هنگام تولید متن، آن را به بیرون درز کنند. تشخیص این مشکل سخت است، زیرا اکثر LLM ها جعبه سیاه هستند.

Veeramachaneni و تیم تحقیقاتی گروه Data-to-AI MIT قصد دارند چنین مسائلی را از طریق چارچوب Rewrite و Rollback خود حل کنند.

روشی جدید برای تولید دشمن از تیم MIT

در مقاله “R&R: Metric-Guided Adversarial Sentence Generation”، تیم تحقیقاتی چارچوب مخالفی را پیشنهاد می‌کند که می‌تواند داده‌های متنی با کیفیت بالا را با بهینه‌سازی نمره نقد که معیارهای روان، شباهت و طبقه‌بندی اشتباه را ترکیب می‌کند، تولید کند. R&R نمونه‌های متضاد با کیفیت بالا را با گرفتن داده‌های متنی از منابع مختلف و بازنویسی آنها تولید می‌کند، مانند تغییر دادن یک جمله به روش‌های مختلف برای ایجاد مجموعه‌ای از جملات جایگزین.

با توجه به 30 هزار کلمه در واژگان خود، می تواند تعداد دلخواه جملات را تولید کند. سپس این جملات را از نظر کیفیت دستوری، روانی و شباهت معنایی به جمله اصلی به با کیفیت ترین جملات تبدیل می کند.

چارچوب R&R، منبع تصویر: MIT

برای انجام این کار، از یک LLM آموزش دیده بر روی جملات با کیفیت بالا برای حذف جملاتی که باید از نظر گرامری صحیح یا روان باشند استفاده می کند. اول، تلاش می کند تا کل جمله را بازنویسی کند، بدون محدودیت در تعداد کلمات تغییر یافته. سپس سعی می کند برخی از ویرایش ها را به عقب برگرداند تا به حداقل مجموعه ای از تغییرات دست یابد.

از آنجایی که طبقه‌بندی‌کننده‌های متن معمولاً باید بر روی داده‌های برچسب‌گذاری شده توسط انسان آموزش ببینند، آنها اغلب با مجموعه داده‌های کوچک آموزش داده می‌شوند، به این معنی که می‌توان آنها را به راحتی فریب داد و جملات را به اشتباه طبقه‌بندی کرد. ما از R&R برای تولید بسیاری از این جملات استفاده کردیم که می تواند یک طبقه بندی کننده متن را فریب دهد و بنابراین می تواند برای آموزش و بهبود آن استفاده شود.

همچنین می توان از R&R برای تبدیل یک جمله با کیفیت پایین یا ضعیف به جمله ای با کیفیت بهتر استفاده کرد. چنین روشی می تواند کاربردهای مختلفی داشته باشد، از کمک ویرایش برای نوشتن انسان گرفته تا ایجاد داده های بیشتر برای LLM.

منبع تصویر: MIT

ویژگی بازنویسی تصادفی به ابزار اجازه می دهد فضای متنی بزرگ تری را کاوش کند و ویژگی بازگشت به عقب به آن اجازه می دهد تا با حداقل ویرایش، تغییرات معناداری ایجاد کند. این ویژگی قدرتمند است زیرا گزینه‌های زیادی را بررسی می‌کند و می‌تواند چندین مثال متفاوت برای یک جمله پیدا کند. در نتیجه، R&R می‌تواند جملات روانی تولید کند که از نظر معنایی شبیه یک جمله هدف بدون دخالت انسان هستند.

Veeramachaneni گفت: «مورد استفاده اولیه R&R انجام حملات خصمانه به طبقه‌بندی‌کننده متن است. با توجه به یک جمله، می تواند جملات مشابهی را پیدا کند که طبقه بندی کننده اشتباه طبقه بندی کرده است. جملات تولید شده توسط R&R می‌توانند به گسترش این مجموعه‌های آموزشی کمک کنند، بنابراین کیفیت طبقه‌بندی‌کننده‌های متن را بهبود می‌بخشند، که ممکن است کاربردهای بالقوه آنها را نیز افزایش دهد.

ویراماچاننی در مورد چالش‌هایی که هنگام توسعه مدل R&R با آن مواجه بود، به VentureBeat گفت که روش‌های سنتی برای یافتن جملات جایگزین به تغییر یک کلمه در یک زمان می‌ماند. هنگام طراحی مرحله بازنویسی، تیم در ابتدا تکنیکی را توسعه داد که تنها یک کلمه را پنهان کند – یعنی تغییر یک کلمه در یک زمان. با انجام این کار، آنها دریافتند که این منجر به تغییر معنی از جمله اصلی شده است.

او گفت: “چنین طراحی منجر به گیر افتادن مدل شد زیرا گزینه های زیادی برای یک موقعیت نقاب دار وجود ندارد.” ما با پوشاندن چندین کلمه در هر مرحله بر این امر غلبه می کنیم. این طراحی جدید همچنین مدل را قادر می سازد تا طول متن را تغییر دهد. از این رو ما مرحله بازگشت را معرفی کردیم که اغتشاشات/تغییرات غیر ضروری را حذف می کند.

تیم تحقیقاتی می‌گوید که R&R همچنین می‌تواند به افراد کمک کند تا نوشته‌های خود را برای دنبال کردن یک هدف خاص تغییر دهند: به عنوان مثال، می‌توان از آن برای قانع‌کننده‌تر، مختصرتر و غیره یک جمله استفاده کرد. هم ارزیابی خودکار و هم انسانی چارچوب R&R نشان داد که روش پیشنهادی موفق به بهینه‌سازی معیارهای شباهت و روانی خودکار برای تولید نمونه‌های متضاد با کیفیت بالاتر نسبت به روش‌های قبلی می‌شود.

آینده LLM ها و هوش مصنوعی مولد

Veeramachaneni معتقد است که LLMs مرزهای گفتمان انسانی را در آینده نزدیک جابجا خواهد کرد و امیدوار است در سال 2023 شاهد کاربردهای بیشتری از LLMها باشیم.

LLM ها قادر خواهند بود به سرعت و به راحتی اطلاعات موجود را خلاصه و ارائه کنند. در نتیجه، آنچه می نویسیم و تعاملات ما با یکدیگر باید معنادارتر و روشنگرتر باشد. این پیشرفت است.»

Veeramachaneni بیشتر توضیح داد که LLM در حال حاضر فقط برای خلاصه کردن متن یا پاسخ به سؤالات استفاده می شود، اما کاربردهای احتمالی بسیار بیشتری وجود دارد.

“از آنجایی که پتانسیل این ابزارها به طور مداوم درک می شود، ما انتظار رونق استفاده را داریم. انتشار اخیر ChatGPT توسط OpenAI قابلیت تولید متن خوبی را نشان داده است. ما می‌توانیم انتظار داشته باشیم که غول‌های فناوری در مدل‌های بزرگ‌تر به رقابت بپردازند و مدل‌های بزرگ‌تر را با عملکرد بهتر عرضه کنند.»

«در عین حال، ما انتظار داریم که محدودیت‌ها و آسیب‌پذیری‌های LLM ارزیابی جدی شود. واضح است که LLM ها می توانند جملات معنی دار و خواندنی تولید کنند. اکنون، ما از مردم انتظار داریم که تمرکز خود را بر ارزیابی اطلاعات واقعی موجود در متن تولید شده آغاز کنند.”

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.