جلسات درخواستی از اجلاس Low-Code/No-Code را بررسی کنید تا بیاموزید چگونه با ارتقاء مهارت و مقیاسبندی توسعهدهندگان شهروند، نوآوری موفقیتآمیز و دستیابی به کارایی داشته باشید. الان ببین.
بهبود استحکام مدلهای یادگیری ماشینی (ML) برای وظایف زبان طبیعی در سالهای اخیر به یک موضوع اصلی هوش مصنوعی (AI) تبدیل شده است. مدلهای زبان بزرگ (LLM) همیشه یکی از پرطرفدارترین حوزهها در تحقیقات هوش مصنوعی بوده است که با افزایش هوش مصنوعی و شرکتهایی که برای انتشار معماریهایی رقابت میکنند که میتوانند محتوای قابل خواندن و حتی کدهای کامپیوتری را ایجاد کنند، حمایت میشود.
مدلهای زبان به طور سنتی با استفاده از متون آنلاین از منابعی مانند ویکیپدیا، داستانهای خبری، مقالات علمی و رمانها آموزش داده میشوند. با این حال، در سالهای اخیر، تمایل به آموزش این مدلها بر روی افزایش حجم دادهها به منظور بهبود دقت و تطبیق پذیری آنها بوده است.
اما، به گفته تیمی از پیشبینیکنندگان هوش مصنوعی، نگرانی در افق وجود دارد: ممکن است دادههای ما برای آموزش آنها تمام شود. محققان Epoch در مطالعهای تاکید میکنند که دادههای با کیفیت بالا که عموماً برای آموزش مدلهای زبان استفاده میشوند ممکن است در اوایل سال 2026 کاهش یابد. از آنجایی که توسعهدهندگان مدلهای پیچیدهتری با قابلیتهای برتر ایجاد میکنند، باید متون بیشتری برای آموزش آنها جمعآوری کنند، و محققان LLM باید اکنون به طور فزاینده ای نگران تمام شدن داده های با کیفیت است.
Kalyan Veeramachaneni، محقق اصلی در آزمایشگاه MIT Information and Decision Systems و رهبر گروه Data-to-AI آزمایشگاه، ممکن است راه حل را پیدا کرده باشد. در مقاله ای در مورد بازنویسی و بازگشت (“R&R: Metric-Guided Adversarial Sentence Generation”) که اخیراً در یافته های AACL-IJCNLP 2022 منتشر شده است، چارچوب پیشنهادی می تواند داده های با کیفیت پایین (از منابعی مانند توییتر و 4Chan) را تغییر داده و تبدیل کند. دادههای با کیفیت بالا (مانند منابع دارای فیلترهای ویرایشی، مانند ویکیپدیا و وبسایتهای صنعتی)، افزایش میزان نوع صحیح دادهها برای آزمایش و آموزش مدلهای زبان.
رویداد
اجلاس امنیت هوشمند
نقش حیاتی AI و ML در امنیت سایبری و مطالعات موردی خاص صنعت را در 8 دسامبر بیاموزید. امروز برای پاس رایگان خود ثبت نام کنید.
اکنون ثبت نام کنید
کمبود داده بزرگ است
محققان هوش مصنوعی زبان به طور کلی دادههایی را که برای آموزش مدلها استفاده میکنند به دادههای با کیفیت بالا و دادههای با کیفیت پایین تقسیم میکنند. دادههای باکیفیت عموماً بهعنوان منابعی تعریف میشوند که «از فیلترهای مفید یا کیفیت عبور کردهاند» همانطور که در مطالعه Epoch اشاره شد. به عبارت دیگر، از نظر کیفیت ویراستاری، چه به صورت حرفه ای یا از طریق بررسی همتایان (در مورد مقالات علمی، رمان های منتشر شده، ویکی پدیا و غیره) یا تعامل مثبت توسط بسیاری از کاربران (مانند محتوای وب فیلتر شده) بررسی شده است.
دادههای دستههای با کیفیت پایین شامل متنهای بدون فیلتر و تولید شده توسط کاربر مانند پستهای رسانههای اجتماعی یا نظرات در وبسایتهایی مانند 4chan است و این موارد بسیار بیشتر از مواردی است که با کیفیت بالا رتبهبندی شدهاند.
آموزش LLM با مجموعه داده های معیوب و با کیفیت پایین می تواند منجر به مشکلات زیادی شود:
- نمونههای دارای برچسب نادرست در مجموعه داده، نویز را به آموزش وارد میکنند که میتواند مدل را اشتباه گرفته و کیفیت مدل را کاهش دهد.
- همبستگیهای جعلی (مثلاً جملاتی با کلمات خاص همیشه یک برچسب خاص دریافت میکنند) مدل را تشویق میکند تا میانبرهای نادرست را انتخاب کند و آن را به سمت اشتباه در سناریوهای واقعی سوق دهد.
- سوگیری داده ها (به عنوان مثال، مجموعه داده ای که فقط حاوی متن از یک گروه خاص از افراد است) باعث می شود مدل در ورودی های خاص عملکرد ضعیفی داشته باشد. مجموعه داده های با کیفیت بالا می تواند این مشکلات را کاهش دهد.
از آنجایی که مدلهای ML برای یادگیری نحوه پیشبینی به دادههای آموزشی متکی هستند، کیفیت دادهها به طور چشمگیری بر کیفیت مدل تأثیر میگذارد. در نتیجه، محققان اغلب فقط مدلهایی را با دادههای با کیفیت بالا آموزش میدهند، زیرا میخواهند مدلهایشان تسلط زبانی برتر را دوباره ایجاد کنند. آموزش LLM ها با استفاده از نمونه های متنی با کیفیت بالا، مدل را قادر می سازد تا پیچیدگی ها و پیچیدگی های ذاتی هر زبان را درک کند. این روش نتایج برجسته ای برای مدل های زبان پیچیده مانند GPT-3 به همراه داشته است.
Veeramachaneni میگوید که هدف برای تولید متن هوشمندانهتر و واضحتر نیز میتواند در آموزش LLMها در گفتمان انسانی واقعی مفید باشد.
Veeramachaneni به VentureBeat گفت: «متن پستهای رسانههای اجتماعی، وبلاگ و غیره شما ممکن است به این کیفیت بالا دست پیدا نکند که کیفیت کلی مجموعه آموزشی را پایین میآورد. “ما فکر کردیم، آیا میتوانیم از دادههای با کیفیت بالا برای آموزش LLMها (که اکنون به LLMهایی که بر روی دادههای با کیفیت بالا آموزش دیدهاند دسترسی داریم) استفاده کنیم و از آن LLMها برای افزایش کیفیت دادههای دیگر استفاده کنیم؟
MIT به چالش های فعلی در توسعه LLM می پردازد
Veeramachaneni توضیح داد که آموزش LLM ها به حجم عظیمی از داده های آموزشی و منابع محاسباتی نیاز دارد که فقط برای غول های فناوری در دسترس است. این بدان معناست که بیشتر محققان فردی باید به LLMهای تولید شده و منتشر شده توسط غول های فناوری وابسته باشند تا اینکه خودشان را بسازند.
او گفت که علیرغم بزرگتر شدن LLM ها و نیاز به داده های آموزشی بیشتر، هنوز هم در بیشتر مواقع تنگنا قدرت محاسباتی است.
«دادههای با کیفیت بالا مشروح شده برای کارهای پایین دستی [is] سخت به دست آوردن حتی اگر روشی برای ایجاد جملات با کیفیت بالاتر از جملات با کیفیت پایین طراحی کنیم، چگونه متوجه می شویم که روش کار را به درستی انجام داده است؟ درخواست از انسان برای حاشیه نویسی داده ها گران است و مقیاس پذیر نیست.
او گفت: “بنابراین، R&R روشی را برای استفاده از LLMs به طور قابل اعتماد برای بهبود کیفیت جملات ارائه می دهد.”
Veeramachaneni معتقد است که از نظر کیفیت مدل، LLM های فعلی نیاز به بهبود توانایی خود در تولید اسناد طولانی دارند.
«مدلهای فعلی میتوانند با چند جمله به سؤالات پاسخ دهند، اما نمیتوانند داستانی تخیلی با موضوع و طرح منطقی بنویسند. بهبود معماری برای LMها لازم است تا متن طولانی تر را مدیریت کنند. همچنین نگرانیهای بیشتری در مورد تأثیرات منفی بالقوه LLM وجود دارد. به عنوان مثال، LLM ها ممکن است اطلاعات شخصی را از داده های آموزشی به خاطر بسپارند و هنگام تولید متن، آن را به بیرون درز کنند. تشخیص این مشکل سخت است، زیرا اکثر LLM ها جعبه سیاه هستند.
Veeramachaneni و تیم تحقیقاتی گروه Data-to-AI MIT قصد دارند چنین مسائلی را از طریق چارچوب Rewrite و Rollback خود حل کنند.
روشی جدید برای تولید دشمن از تیم MIT
در مقاله “R&R: Metric-Guided Adversarial Sentence Generation”، تیم تحقیقاتی چارچوب مخالفی را پیشنهاد میکند که میتواند دادههای متنی با کیفیت بالا را با بهینهسازی نمره نقد که معیارهای روان، شباهت و طبقهبندی اشتباه را ترکیب میکند، تولید کند. R&R نمونههای متضاد با کیفیت بالا را با گرفتن دادههای متنی از منابع مختلف و بازنویسی آنها تولید میکند، مانند تغییر دادن یک جمله به روشهای مختلف برای ایجاد مجموعهای از جملات جایگزین.
با توجه به 30 هزار کلمه در واژگان خود، می تواند تعداد دلخواه جملات را تولید کند. سپس این جملات را از نظر کیفیت دستوری، روانی و شباهت معنایی به جمله اصلی به با کیفیت ترین جملات تبدیل می کند.
برای انجام این کار، از یک LLM آموزش دیده بر روی جملات با کیفیت بالا برای حذف جملاتی که باید از نظر گرامری صحیح یا روان باشند استفاده می کند. اول، تلاش می کند تا کل جمله را بازنویسی کند، بدون محدودیت در تعداد کلمات تغییر یافته. سپس سعی می کند برخی از ویرایش ها را به عقب برگرداند تا به حداقل مجموعه ای از تغییرات دست یابد.
از آنجایی که طبقهبندیکنندههای متن معمولاً باید بر روی دادههای برچسبگذاری شده توسط انسان آموزش ببینند، آنها اغلب با مجموعه دادههای کوچک آموزش داده میشوند، به این معنی که میتوان آنها را به راحتی فریب داد و جملات را به اشتباه طبقهبندی کرد. ما از R&R برای تولید بسیاری از این جملات استفاده کردیم که می تواند یک طبقه بندی کننده متن را فریب دهد و بنابراین می تواند برای آموزش و بهبود آن استفاده شود.
همچنین می توان از R&R برای تبدیل یک جمله با کیفیت پایین یا ضعیف به جمله ای با کیفیت بهتر استفاده کرد. چنین روشی می تواند کاربردهای مختلفی داشته باشد، از کمک ویرایش برای نوشتن انسان گرفته تا ایجاد داده های بیشتر برای LLM.
ویژگی بازنویسی تصادفی به ابزار اجازه می دهد فضای متنی بزرگ تری را کاوش کند و ویژگی بازگشت به عقب به آن اجازه می دهد تا با حداقل ویرایش، تغییرات معناداری ایجاد کند. این ویژگی قدرتمند است زیرا گزینههای زیادی را بررسی میکند و میتواند چندین مثال متفاوت برای یک جمله پیدا کند. در نتیجه، R&R میتواند جملات روانی تولید کند که از نظر معنایی شبیه یک جمله هدف بدون دخالت انسان هستند.
Veeramachaneni گفت: «مورد استفاده اولیه R&R انجام حملات خصمانه به طبقهبندیکننده متن است. با توجه به یک جمله، می تواند جملات مشابهی را پیدا کند که طبقه بندی کننده اشتباه طبقه بندی کرده است. جملات تولید شده توسط R&R میتوانند به گسترش این مجموعههای آموزشی کمک کنند، بنابراین کیفیت طبقهبندیکنندههای متن را بهبود میبخشند، که ممکن است کاربردهای بالقوه آنها را نیز افزایش دهد.
ویراماچاننی در مورد چالشهایی که هنگام توسعه مدل R&R با آن مواجه بود، به VentureBeat گفت که روشهای سنتی برای یافتن جملات جایگزین به تغییر یک کلمه در یک زمان میماند. هنگام طراحی مرحله بازنویسی، تیم در ابتدا تکنیکی را توسعه داد که تنها یک کلمه را پنهان کند – یعنی تغییر یک کلمه در یک زمان. با انجام این کار، آنها دریافتند که این منجر به تغییر معنی از جمله اصلی شده است.
او گفت: “چنین طراحی منجر به گیر افتادن مدل شد زیرا گزینه های زیادی برای یک موقعیت نقاب دار وجود ندارد.” ما با پوشاندن چندین کلمه در هر مرحله بر این امر غلبه می کنیم. این طراحی جدید همچنین مدل را قادر می سازد تا طول متن را تغییر دهد. از این رو ما مرحله بازگشت را معرفی کردیم که اغتشاشات/تغییرات غیر ضروری را حذف می کند.
تیم تحقیقاتی میگوید که R&R همچنین میتواند به افراد کمک کند تا نوشتههای خود را برای دنبال کردن یک هدف خاص تغییر دهند: به عنوان مثال، میتوان از آن برای قانعکنندهتر، مختصرتر و غیره یک جمله استفاده کرد. هم ارزیابی خودکار و هم انسانی چارچوب R&R نشان داد که روش پیشنهادی موفق به بهینهسازی معیارهای شباهت و روانی خودکار برای تولید نمونههای متضاد با کیفیت بالاتر نسبت به روشهای قبلی میشود.
آینده LLM ها و هوش مصنوعی مولد
Veeramachaneni معتقد است که LLMs مرزهای گفتمان انسانی را در آینده نزدیک جابجا خواهد کرد و امیدوار است در سال 2023 شاهد کاربردهای بیشتری از LLMها باشیم.
LLM ها قادر خواهند بود به سرعت و به راحتی اطلاعات موجود را خلاصه و ارائه کنند. در نتیجه، آنچه می نویسیم و تعاملات ما با یکدیگر باید معنادارتر و روشنگرتر باشد. این پیشرفت است.»
Veeramachaneni بیشتر توضیح داد که LLM در حال حاضر فقط برای خلاصه کردن متن یا پاسخ به سؤالات استفاده می شود، اما کاربردهای احتمالی بسیار بیشتری وجود دارد.
“از آنجایی که پتانسیل این ابزارها به طور مداوم درک می شود، ما انتظار رونق استفاده را داریم. انتشار اخیر ChatGPT توسط OpenAI قابلیت تولید متن خوبی را نشان داده است. ما میتوانیم انتظار داشته باشیم که غولهای فناوری در مدلهای بزرگتر به رقابت بپردازند و مدلهای بزرگتر را با عملکرد بهتر عرضه کنند.»
«در عین حال، ما انتظار داریم که محدودیتها و آسیبپذیریهای LLM ارزیابی جدی شود. واضح است که LLM ها می توانند جملات معنی دار و خواندنی تولید کنند. اکنون، ما از مردم انتظار داریم که تمرکز خود را بر ارزیابی اطلاعات واقعی موجود در متن تولید شده آغاز کنند.”
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.