هفته گذشته، انجمن نویسندگان نامه ای سرگشاده به رهبران برخی از بزرگترین شرکت های مولد هوش مصنوعی جهان ارسال کرد. امضای بیش از 9000 نویسنده، از جمله نویسندگان برجسته ای مانند جورج ساندرز و مارگارت اتوود، از شرکت هایی مانند آلفابت، OpenAI، متا و مایکروسافت خواسته شده است تا “رضایت، اعتبار و جبران منصفانه نویسندگان را برای استفاده از مطالب دارای حق چاپ در آموزش هوش مصنوعی دریافت کنند.” این درخواست تنها آخرین مورد از مجموعه تلاشهای خلاقان برای تضمین اعتبار و جبران نقشی است که ادعا میکنند کارشان در آموزش سیستمهای هوش مصنوعی مولد بازی کرده است.
دادههای آموزشی مورد استفاده برای مدلهای زبان بزرگ یا LLMها و دیگر سیستمهای هوش مصنوعی مولد مخفی نگه داشته شدهاند. اما هر چه بیشتر از این سیستم ها استفاده شود، نویسندگان و هنرمندان تجسمی بیشتر متوجه شباهت های کار خود و خروجی این سیستم ها می شوند. بسیاری از شرکتهای مولد هوش مصنوعی خواستهاند منابع دادههای خود را فاش کنند و – مانند انجمن نویسندگان – به کسانی که آثارشان استفاده شده است، غرامت بپردازند. برخی از درخواستها نامههای سرگشاده و پستهای رسانههای اجتماعی هستند، اما تعداد فزایندهای به شکایت میپردازند.
اینجاست که قانون کپی رایت نقش اصلی را ایفا می کند. با این حال، این ابزاری است که برای مقابله با تمام نگرانیهای هنرمندان مجهز نیست، خواه این نگرانیهای طولانی مدت در مورد شغل و غرامت در دنیایی که اینترنت به هم ریخته است، یا نگرانیهای جدید در مورد حریم خصوصی و ویژگیهای شخصی – و غیرقابل حق نسخهبرداری – باشد. برای بسیاری از این موارد، کپی رایت فقط می تواند پاسخ های محدودی ارائه دهد. مایک مسنیک، سردبیر وبلاگ فناوری Techdirt میگوید: «سوالات زیادی وجود دارد که هوش مصنوعی تقریباً برای هر جنبهای از جامعه ایجاد میکند. “اما این تمرکز محدود روی حق چاپ به عنوان ابزاری برای مقابله با آن، به نظر من، واقعاً نابجاست.”
پرمخاطب ترین از این شکایت های اخیر در اوایل این ماه زمانی که سارا سیلورمن کمدین، به همراه چهار نویسنده دیگر در دو پرونده جداگانه، از OpenAI شکایت کردند و ادعا کردند که این شرکت سیستم بسیار محبوب ChatGPT خود را بدون اجازه آموزش داده است. هر دو دعوای دسته جمعی توسط موسسه حقوقی جوزف ساوری، که متخصص در دعاوی ضد انحصار است، تنظیم شده است. این شرکت همچنین نماینده هنرمندانی است که به دلایل مشابه از Stability AI، Midjourney و DeviantArt شکایت می کنند. هفته گذشته، ویلیام اوریک، قاضی دادگاه منطقه ای ایالات متحده، در جریان جلسه رسیدگی به این پرونده، اظهار داشت که ممکن است بیشتر شکایت را رد کند و اظهار داشت که از آنجایی که این سیستم ها بر روی «پنج میلیارد تصویر فشرده شده» آموزش دیده اند، هنرمندان درگیر باید «حقایق بیشتری» برای ادعاهای نقض حق چاپ خود ارائه کنند.
پرونده سیلورمن، از جمله موارد دیگر، ادعا میکند که OpenAI ممکن است خاطرات کمدین را پاک کرده باشد. شب خواب، از طریق “کتابخانه های سایه” که میزبان انبوهی از کتاب های الکترونیکی و مقالات دانشگاهی غیرقانونی هستند. متیو ساگ، استاد حقوق در دانشگاه اموری، میگوید اگر دادگاه به نفع سیلورمن و شاکیان دیگرش را تشخیص دهد، این حکم میتواند سابقه جدیدی را برای نحوه نگاه قانون به مجموعه دادههای مورد استفاده برای آموزش مدلهای هوش مصنوعی ایجاد کند. به طور خاص، میتواند به تعیین اینکه آیا شرکتها میتوانند ادعای استفاده منصفانه را داشته باشند، در زمانی که مدلهایشان مطالب دارای حق نسخهبرداری را پاک میکنند، کمک کند. ساگ درباره شکایت سیلورمن میگوید: «نمیخواهم نتیجه این سؤال را مطرح کنم. اما به نظر می رسد که قانع کننده ترین پرونده در بین همه پرونده هایی است که تشکیل شده است. OpenAI به درخواست ها برای اظهار نظر پاسخ نداد.
ساگ توضیح میدهد که در هسته این موارد، همان نظریه کلی وجود دارد: این که LLMها از آثار محافظتشده نویسندگان «کپی» میکردند. با این حال، همانطور که ساگ در شهادت خود در جلسه استماع کمیته فرعی سنای ایالات متحده در اوایل این ماه توضیح داد، مدلهایی مانند GPT-3.5 و GPT-4 کار را به معنای سنتی «کپی» نمیکنند. هضم فعل مناسب تری خواهد بود – هضم داده های آموزشی برای انجام عملکرد آنها: پیش بینی بهترین کلمه بعدی در یک دنباله. ساگ در شهادت سنا خود گفت: «به جای اینکه فکر کنیم یک LLM مانند یک کاتب در صومعه، داده های آموزشی را کپی می کند، منطقی تر است که آن را مانند یک دانش آموز از داده های آموزشی یاد بگیریم.»