هوش مصنوعی (AI) به سرعت نحوه زندگی و کار ما را تغییر داده است. با این حال، چالش سوگیری داده های هوش مصنوعی در خط مقدم قرار گرفته است. همانطور که به سمت آینده Web3 پیش می رویم، طبیعی است که محصولات، راه حل ها و خدمات نوآورانه جدیدی را ببینیم که از Web3 و AI در هماهنگی استفاده می کنند. و در حالی که برخی از مفسران معتقدند که فناوریهای غیرمتمرکز میتوانند پاسخی به سوگیری دادهها باشند، این نمیتواند دور از واقعیت باشد.
اندازه بازار Web3 هنوز نسبتاً کوچک است و تعیین کمیت آن دشوار است، زیرا اکوسیستم Web3 هنوز در مراحل اولیه توسعه خود است و تعریف دقیق Web3 هنوز در حال تکامل است. در حالی که اندازه بازار در سال 2021 نزدیک به 2 میلیارد دلار تخمین زده می شد، تحلیلگران و شرکت های تحقیقاتی مختلف نرخ رشد ترکیبی سالانه مورد انتظار (CAGR) را تقریباً 45٪ گزارش کرده اند که با رشد سریع راه حل های Web3 و پذیرش مصرف کنندگان ترکیب می شود. بازار Web3 را در مسیری قرار می دهد که تا سال 2030 حدود 80 میلیارد دلار ارزش داشته باشد.
در حالی که این صنعت به سرعت در حال رشد است، وضعیت فعلی صنعت همراه با سایر عوامل صنعت فناوری دلیلی است که سوگیری در داده های هوش مصنوعی در مسیر اشتباهی قرار دارد.
ارتباط بین تعصب، کیفیت و حجم
سیستمهای هوش مصنوعی برای آموزش الگوریتمهای خود به مقادیر زیادی داده با کیفیت بالا متکی هستند. GPT-3 OpenAI که شامل مدل ChatGPT است، بر روی حجم عظیمی از داده های با کیفیت بالا آموزش داده شده است. مقدار دقیق داده های مورد استفاده برای آموزش توسط OpenAI فاش نشده است، اما تخمین زده می شود که در حدود صدها میلیارد کلمه یا بیشتر باشد.
این داده ها فیلتر شده و از قبل پردازش شدند تا اطمینان حاصل شود که کیفیت بالایی دارند و با وظیفه تولید زبان مرتبط هستند. OpenAI از تکنیک های پیشرفته یادگیری ماشینی (ML) مانند ترانسفورماتورها برای آموزش مدل بر روی این مجموعه داده بزرگ استفاده کرد که به آن امکان می داد الگوها و روابط بین کلمات و عبارات را یاد بگیرد و متن با کیفیت بالا تولید کند.
کیفیت دادههای آموزشی هوش مصنوعی تأثیر قابلتوجهی بر عملکرد یک مدل ML دارد و اندازه مجموعه داده همچنین میتواند عاملی حیاتی در تعیین توانایی مدل برای تعمیم دادهها و وظایف جدید باشد. اما، این نیز درست است که کیفیت و حجم هر دو تأثیر قابل توجهی بر سوگیری داده ها دارند.
خطر منحصر به فرد سوگیری
سوگیری در هوش مصنوعی یک موضوع مهم است زیرا می تواند منجر به نتایج ناعادلانه، تبعیض آمیز و مضر در زمینه هایی مانند اشتغال، اعتبار، مسکن و عدالت کیفری و غیره شود.
در سال 2018، آمازون مجبور شد ابزار استخدام هوش مصنوعی را که نشان دهنده تعصب علیه زنان بود، کنار بگذارد. این ابزار بر روی رزومه های ارسال شده به آمازون طی یک دوره 10 ساله آموزش داده شد که شامل نامزدهای عمدتاً مرد می شد و هوش مصنوعی را به کاهش ارزش رزومه های حاوی کلماتی مانند “زن” و “زن” سوق داد.
و در سال 2019، محققان دریافتند که یک الگوریتم هوش مصنوعی تجاری موجود که برای پیشبینی نتایج بیمار استفاده میشود، علیه بیماران سیاهپوست تعصب دارد. این الگوریتم بر روی دادههای بیماران عمدتاً سفیدپوست آموزش داده شد و منجر به این شد که نرخ مثبت کاذب بالاتری برای بیماران سیاه پوست داشته باشد.
ماهیت غیرمتمرکز راهحلهای Web3 همراه با هوش مصنوعی یک خطر منحصر به فرد برای ایجاد سوگیری ایجاد میکند. کیفیت و در دسترس بودن دادهها در این محیط میتواند یک چالش باشد و آموزش دقیق الگوریتمهای هوش مصنوعی را دشوار میکند، نه فقط به دلیل عدم استفاده از راهحلهای Web3، بلکه به دلیل جمعیتی که در موقعیت استفاده از آنها هستند.
ما میتوانیم از دادههای ژنومی جمعآوریشده توسط شرکتهایی مانند 23andMe که بر علیه جوامع فقیر و به حاشیه رانده شده است، یک موازی ترسیم کنیم. هزینه، در دسترس بودن و بازاریابی هدف خدمات آزمایش DNA مانند 23andMe دسترسی به این خدمات را برای افراد از جوامع کم درآمد یا کسانی که در منطقهای زندگی میکنند که سرویس در آن فعالیت نمیکند، محدود میکند.
در نتیجه، دادههای جمعآوریشده توسط این شرکتها ممکن است بهطور دقیق تنوع ژنومی جمعیت وسیعتر را منعکس نکند، که منجر به سوگیریهای بالقوه در تحقیقات ژنتیکی و توسعه مراقبتهای بهداشتی و پزشکی میشود.
و این ما را به دلیل دیگری هدایت می کند که Web3 سوگیری داده های هوش مصنوعی را افزایش می دهد.
سوگیری صنعت و تمرکز بر اخلاق
فقدان تنوع در صنعت استارت آپ Web3 یک نگرانی بزرگ است. تا سال 2022، زنان 26.7 درصد مشاغل فناوری را در اختیار دارند. از این تعداد، 56 درصد زنان رنگین پوست هستند. پستهای اجرایی در فنآوری حتی کمتر از زنان حضور دارند.
در Web3، این عدم تعادل تشدید می شود. به گفته تحلیلگران مختلف، کمتر از 5 درصد از استارت آپ های Web3 یک بنیانگذار زن دارند. این عدم تنوع به این معنی است که احتمال زیادی وجود دارد که سوگیری داده های هوش مصنوعی به طور ناخودآگاه به عنوان یک موضوع توسط بنیانگذاران مرد و قفقاز نادیده گرفته شود.
برای غلبه بر این چالشها، صنعت Web3 باید تنوع و فراگیری را در منابع داده و تیمهایش در اولویت قرار دهد. علاوه بر این، صنعت باید داستان چرایی ضرورت تنوع، برابری و شمول را تغییر دهد.
از منظر مالی و مقیاسپذیری، محصولات و خدماتی که از دیدگاههای متفاوت طراحی شدهاند، بیشتر برای میلیاردها مشتری کار میکنند تا میلیونها، و این باعث میشود آن استارتآپهایی که تیمهای متنوعی دارند، بازدهی بالا و قابلیتهای مقیاس جهانی داشته باشند. صنعت Web3 همچنین باید بر کیفیت و دقت داده ها تمرکز کند و اطمینان حاصل کند که داده های مورد استفاده برای آموزش الگوریتم های هوش مصنوعی عاری از سوگیری هستند.
آیا Web3 می تواند پاسخی برای سوگیری داده های هوش مصنوعی داشته باشد؟
یک راه حل برای این چالش ها، توسعه بازارهای داده غیرمتمرکز است که امکان تبادل امن و شفاف داده ها را بین افراد و سازمان ها فراهم می کند. این می تواند به کاهش خطر داده های جانبدارانه کمک کند، زیرا امکان استفاده از طیف وسیع تری از داده ها را در آموزش الگوریتم های هوش مصنوعی فراهم می کند. علاوه بر این، از فناوری بلاک چین می توان برای اطمینان از شفافیت و دقت داده ها استفاده کرد تا الگوریتم ها مغرضانه نباشند.
اما، در نهایت، ما با چالش مهم یافتن منابع داده گسترده برای سالهای متمادی روبرو خواهیم بود تا زمانی که راهحلهای Web3 توسط مخاطبان اصلی استفاده شود.
در حالی که وب 3 و بلاک چین همچنان در اخبار جریان اصلی حضور دارند، چنین محصولات و خدماتی به احتمال زیاد برای مردم در جوامع نوپا و فناوری جذاب هستند – که ما می دانیم که فاقد تنوع هستند، اما همچنین بخش نسبتاً کوچکی از کیک جهانی است.
تخمین درصدی از جمعیت جهان که در استارت آپ ها کار می کنند دشوار است. در سالهای اخیر، این صنعت تقریباً سه میلیون شغل در مقیاس ایالات متحده ایجاد کرده است که در برابر کل جمعیت ایالات متحده – بدون در نظر گرفتن مشاغل از دست رفته – صنعت فناوری از راه دور نماینده شهروندان در سن کار نیست.
تا زمانی که راه حل های Web3 به جریان اصلی تبدیل شوند و جذابیت و استفاده خود را فراتر از مواردی که علاقه ذاتی به فناوری دارند گسترش دهند و به اندازه کافی مقرون به صرفه و در دسترس برای جمعیت وسیع تری قرار نگیرند، دسترسی به داده های با کیفیت بالا در حجم کافی برای آموزش سیستم های هوش مصنوعی یک مانع بزرگ باقی خواهد ماند. . صنعت باید از هم اکنون برای رفع این مشکل اقداماتی انجام دهد.
الکساندرا کارپووا رئیس بازاریابی در لومرین است.
DataDecisionMakers
به انجمن VentureBeat خوش آمدید!
DataDecisionMakers جایی است که کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های مرتبط با داده را به اشتراک بگذارند.
اگر میخواهید درباره ایدههای پیشرفته و اطلاعات بهروز، بهترین شیوهها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.
شما حتی ممکن است در نظر داشته باشید که مقاله ای از خودتان ارائه دهید!
از DataDecisionMakers بیشتر بخوانید