نبرد هوش مصنوعی مولد یک نقص اساسی دارد


هفته گذشته، انجمن نویسندگان نامه ای سرگشاده به رهبران برخی از بزرگترین شرکت های مولد هوش مصنوعی جهان ارسال کرد. امضای بیش از 9000 نویسنده، از جمله نویسندگان برجسته ای مانند جورج ساندرز و مارگارت اتوود، از شرکت هایی مانند آلفابت، OpenAI، متا و مایکروسافت خواسته شده است تا “رضایت، اعتبار و جبران منصفانه نویسندگان را برای استفاده از مطالب دارای حق چاپ در آموزش هوش مصنوعی دریافت کنند.” این درخواست تنها آخرین مورد از مجموعه تلاش‌های خلاقان برای تضمین اعتبار و جبران نقشی است که ادعا می‌کنند کارشان در آموزش سیستم‌های هوش مصنوعی مولد بازی کرده است.

داده‌های آموزشی مورد استفاده برای مدل‌های زبان بزرگ یا LLMها و دیگر سیستم‌های هوش مصنوعی مولد مخفی نگه داشته شده‌اند. اما هر چه بیشتر از این سیستم ها استفاده شود، نویسندگان و هنرمندان تجسمی بیشتر متوجه شباهت های کار خود و خروجی این سیستم ها می شوند. بسیاری از شرکت‌های مولد هوش مصنوعی خواسته‌اند منابع داده‌های خود را فاش کنند و – مانند انجمن نویسندگان – به کسانی که آثارشان استفاده شده است، غرامت بپردازند. برخی از درخواست‌ها نامه‌های سرگشاده و پست‌های رسانه‌های اجتماعی هستند، اما تعداد فزاینده‌ای به شکایت می‌پردازند.

اینجاست که قانون کپی رایت نقش اصلی را ایفا می کند. با این حال، این ابزاری است که برای مقابله با تمام نگرانی‌های هنرمندان مجهز نیست، خواه این نگرانی‌های طولانی مدت در مورد شغل و غرامت در دنیایی که اینترنت به هم ریخته است، یا نگرانی‌های جدید در مورد حریم خصوصی و ویژگی‌های شخصی – و غیرقابل حق نسخه‌برداری – باشد. برای بسیاری از این موارد، کپی رایت فقط می تواند پاسخ های محدودی ارائه دهد. مایک مسنیک، سردبیر وبلاگ فناوری Techdirt می‌گوید: «سوالات زیادی وجود دارد که هوش مصنوعی تقریباً برای هر جنبه‌ای از جامعه ایجاد می‌کند. “اما این تمرکز محدود روی حق چاپ به عنوان ابزاری برای مقابله با آن، به نظر من، واقعاً نابجاست.”

پرمخاطب ترین از این شکایت های اخیر در اوایل این ماه زمانی که سارا سیلورمن کمدین، به همراه چهار نویسنده دیگر در دو پرونده جداگانه، از OpenAI شکایت کردند و ادعا کردند که این شرکت سیستم بسیار محبوب ChatGPT خود را بدون اجازه آموزش داده است. هر دو دعوای دسته جمعی توسط موسسه حقوقی جوزف ساوری، که متخصص در دعاوی ضد انحصار است، تنظیم شده است. این شرکت همچنین نماینده هنرمندانی است که به دلایل مشابه از Stability AI، Midjourney و DeviantArt شکایت می کنند. هفته گذشته، ویلیام اوریک، قاضی دادگاه منطقه ای ایالات متحده، در جریان جلسه رسیدگی به این پرونده، اظهار داشت که ممکن است بیشتر شکایت را رد کند و اظهار داشت که از آنجایی که این سیستم ها بر روی «پنج میلیارد تصویر فشرده شده» آموزش دیده اند، هنرمندان درگیر باید «حقایق بیشتری» برای ادعاهای نقض حق چاپ خود ارائه کنند.

پرونده سیلورمن، از جمله موارد دیگر، ادعا می‌کند که OpenAI ممکن است خاطرات کمدین را پاک کرده باشد. شب خواب، از طریق “کتابخانه های سایه” که میزبان انبوهی از کتاب های الکترونیکی و مقالات دانشگاهی غیرقانونی هستند. متیو ساگ، استاد حقوق در دانشگاه اموری، می‌گوید اگر دادگاه به نفع سیلورمن و شاکیان دیگرش را تشخیص دهد، این حکم می‌تواند سابقه جدیدی را برای نحوه نگاه قانون به مجموعه داده‌های مورد استفاده برای آموزش مدل‌های هوش مصنوعی ایجاد کند. به طور خاص، می‌تواند به تعیین اینکه آیا شرکت‌ها می‌توانند ادعای استفاده منصفانه را داشته باشند، در زمانی که مدل‌هایشان مطالب دارای حق نسخه‌برداری را پاک می‌کنند، کمک کند. ساگ درباره شکایت سیلورمن می‌گوید: «نمی‌خواهم نتیجه این سؤال را مطرح کنم. اما به نظر می رسد که قانع کننده ترین پرونده در بین همه پرونده هایی است که تشکیل شده است. OpenAI به درخواست ها برای اظهار نظر پاسخ نداد.

ساگ توضیح می‌دهد که در هسته این موارد، همان نظریه کلی وجود دارد: این که LLM‌ها از آثار محافظت‌شده نویسندگان «کپی» می‌کردند. با این حال، همانطور که ساگ در شهادت خود در جلسه استماع کمیته فرعی سنای ایالات متحده در اوایل این ماه توضیح داد، مدل‌هایی مانند GPT-3.5 و GPT-4 کار را به معنای سنتی «کپی» نمی‌کنند. هضم فعل مناسب تری خواهد بود – هضم داده های آموزشی برای انجام عملکرد آنها: پیش بینی بهترین کلمه بعدی در یک دنباله. ساگ در شهادت سنا خود گفت: «به جای اینکه فکر کنیم یک LLM مانند یک کاتب در صومعه، داده های آموزشی را کپی می کند، منطقی تر است که آن را مانند یک دانش آموز از داده های آموزشی یاد بگیریم.»