Cerebras Systems رکورد بزرگ‌ترین مدل‌های هوش مصنوعی را که تا به حال بر روی یک دستگاه آموزش دیده‌اند، ثبت می‌کند


ما هیجان زده هستیم که Transform 2022 را به صورت حضوری در 19 ژوئیه و تقریباً 20 تا 28 ژوئیه بازگردانیم. برای گفتگوهای روشنگر و فرصت های شبکه هیجان انگیز به رهبران هوش مصنوعی و داده بپیوندید. امروز ثبت نام کنید!


Cerebras Systems گفت که رکورد بزرگ‌ترین مدل‌های هوش مصنوعی را که تا کنون بر روی یک دستگاه آموزش داده شده است، ثبت کرده است، که در این مورد یک ویفر سیلیکونی غول‌پیکر با صدها هزار هسته است.

می توانم بگویم که این رکورد برای یک تراشه است، اما Cerebras یک تراشه بزرگ از ویفر سیلیکونی 8.5 اینچی می سازد که به طور معمول به صدها تراشه تقسیم می شود. بنابراین، کلمه “دستگاه” باید به این معنی باشد که هیچ کس دیگری چنین تراشه عظیمی با 850000 هسته و 2.55 تریلیون ترانزیستور نمی سازد.

مزیت ویفر به اندازه بشقاب شام

سیستم Cerebras CS-2 می تواند مدل های پردازش زبان طبیعی (NLP) با چند میلیارد پارامتر از جمله مدل های GPT-3XL 1.3 میلیارد و همچنین GPT-J 6B، GPT-3 13B و GPT-NeoX 20B را آموزش دهد. سربراس گفت که برای اولین بار، یک سیستم CS-2 منفرد با یک ویفر سربراس می تواند مدل هایی را با حداکثر 20 میلیارد پارامتر آموزش دهد – شاهکاری که در هیچ دستگاه دیگری امکان پذیر نیست. یکی از سیستم‌های CS-2 درون یک رک مرکز داده استاندارد قرار می‌گیرد و حدود 26 اینچ ارتفاع دارد.

با فعال کردن یک CS-2 برای آموزش این مدل‌ها، Cerebras زمان مهندسی سیستم لازم برای اجرای مدل‌های NLP بزرگ را از ماه‌ها به دقیقه کاهش می‌دهد. همچنین یکی از دردناک ترین جنبه های NLP را حذف می کند – یعنی پارتیشن بندی مدل در صدها یا هزاران واحد پردازش گرافیکی کوچک (GPU).

اندرو فلدمن، مدیر عامل Cerebras Systems در مصاحبه ای گفت: “تنظیم کردن آن به 16 ضربه کلید نیاز دارد.”

معایب استفاده از پردازنده‌های گرافیکی با مدل‌های هوش مصنوعی

فلدمن توضیح داد که مدل های بزرگتر برای NLP دقیق تر هستند. اما تعداد کمی از شرکت‌ها منابع و تخصص لازم را برای انجام کار پرزحمت شکستن این مدل‌های بزرگ و پخش آن‌ها در صدها یا هزاران پردازنده گرافیکی، که رقیب محاسباتی دستگاه‌های Cerebras هستند، داشتند.

او گفت: «این بدان معناست که هر شبکه باید سازماندهی مجدد، توزیع مجدد، و همه کارها دوباره برای هر خوشه انجام شود. “اگر می خواهید حتی یک GPU را در آن کلاستر تغییر دهید، باید همه کارها را دوباره انجام دهید. اگر می خواهید مدل را به خوشه دیگری ببرید، کار را دوباره انجام می دهید. اگر می‌خواهید مدل جدیدی را به این خوشه ببرید، باید کار را دوباره انجام دهید.»

فلدمن گفت که Cerebras در حال دموکراتیک کردن دسترسی به برخی از بزرگترین مدل‌ها در اکوسیستم هوش مصنوعی است.

کیم برانسون، معاون ارشد هوش مصنوعی و یادگیری ماشین در GSK، در بیانیه‌ای گفت: «GSK مجموعه داده‌های بسیار بزرگی را از طریق تحقیقات ژنومی و ژنتیکی خود تولید می‌کند و این مجموعه داده‌ها به تجهیزات جدیدی برای انجام یادگیری ماشینی نیاز دارند». Cerebras CS-2 یک جزء حیاتی است که به GSK اجازه می‌دهد تا مدل‌های زبانی را با استفاده از مجموعه داده‌های بیولوژیکی در مقیاس و اندازه‌ای که قبلاً دست نیافتنی نبود، آموزش دهد. این مدل‌های بنیادی اساس بسیاری از سیستم‌های هوش مصنوعی ما را تشکیل می‌دهند و نقشی حیاتی در کشف داروهای تحول‌آفرین ایفا می‌کنند.»

این قابلیت‌ها با ترکیبی از اندازه و منابع محاسباتی موجود در Cerebras Wafer Scale Engine-2 (WSE-2) و پسوندهای معماری نرم‌افزار Weight Streaming که از طریق انتشار نسخه R1.4 پلتفرم نرم‌افزار Cerebras، CSoft در دسترس هستند، ممکن می‌شوند. .

تراشه به اندازه ویفر CS-2 سربراس.
تراشه به اندازه ویفر CS-2 سربراس.

فلدمن گفت وقتی یک مدل روی یک پردازنده قرار می گیرد، آموزش هوش مصنوعی آسان است. اما زمانی که یک مدل دارای پارامترهای بیشتری نسبت به حافظه باشد یا یک لایه به محاسبات بیشتری نسبت به پردازشگر واحد نیاز دارد، پیچیدگی منفجر می شود. مدل باید شکسته شود و در صدها یا هزاران پردازنده گرافیکی پخش شود. این فرآیند دردناک است و اغلب ماه ها طول می کشد تا کامل شود.

فلدمن گفت: «ما کاری را انجام داده‌ایم که در حال حاضر ماه‌ها طول می‌کشد تا جامعه ML انجام دهد و آن را به 16 ضربه کلید تبدیل کرده‌ایم.

کاهش نیاز به مهندسان سیستم

بدتر از همه، این فرآیند برای هر جفت خوشه محاسباتی شبکه منحصر به فرد است، بنابراین کار برای خوشه های محاسباتی مختلف یا در سراسر شبکه های عصبی قابل حمل نیست. فلدمن گفت که این کاملاً سفارشی است و به همین دلیل است که شرکت‌ها هنگام دستیابی به این دستاورد، مقالاتی را در مورد آن منتشر می‌کنند. این یک مشکل بزرگ مهندسی سیستم است، و این چیزی نیست که متخصصان یادگیری ماشین برای انجام آن آموزش دیده باشند.

فلدمن گفت: «اعلامیه ما برای هر سازمانی امکان دسترسی به بزرگترین مدل‌ها را فراهم می‌کند و نشان می‌دهد که می‌توان آن‌ها را به سرعت و به راحتی روی یک دستگاه آموزش داد.

او گفت که انجام این کار بر روی یک خوشه از GPU ها دشوار است زیرا “گسترش یک شبکه عصبی بزرگ بر روی یک خوشه از GPU ها عمیقا دشوار است.”

او افزود: “این یک مشکل چند بعدی تتریس است، جایی که شما باید محاسبات، حافظه و ارتباطات را جدا کنید و آنها را در صدها یا هزاران واحد پردازش گرافیکی توزیع کنید.”

بزرگترین پردازنده ای که تا کنون ساخته شده است

مغزها
Cerebras تعدادی مشتری ابر رایانه دارد.

Cerebras WSE-2 بزرگترین پردازنده ای است که تاکنون ساخته شده است. این پردازنده 56 برابر بزرگتر است، 2.55 تریلیون ترانزیستور بیشتر دارد و 100 برابر بزرگترین پردازنده گرافیکی هسته های محاسباتی دارد. اندازه و منابع محاسباتی در WSE-2 هر لایه از حتی بزرگترین شبکه های عصبی را قادر می سازد تا جا بیفتند. معماری Weight Streaming Cerebras حافظه و محاسبات را جدا می‌کند و به حافظه (که برای ذخیره پارامترها استفاده می‌شود) اجازه می‌دهد جدا از محاسبات رشد کند. بنابراین یک CS-2 می تواند مدل هایی با صدها میلیارد و حتی تریلیون ها پارامتر را پشتیبانی کند.

فلدمن گفت: «صرفاً برای یادآوری، وقتی می گوییم بزرگ هستیم، 123 برابر هسته، 1000 برابر حافظه و 12000 برابر پهنای باند حافظه بیشتر از یک راه حل GPU داریم. و ما تکنیکی به نام استریم وزن ابداع کردیم که در آن می‌توانیم حافظه را از تراشه جدا از ویفر نگه داریم.

فلدمن گفت، از سوی دیگر، واحدهای پردازش گرافیکی دارای مقدار ثابتی از حافظه در هر GPU هستند. اگر مدل نیاز به پارامترهای بیشتری نسبت به حافظه دارد، باید پردازنده‌های گرافیکی بیشتری خریداری کرد و سپس کار را روی چندین GPU پخش کرد. نتیجه انفجار پیچیدگی است. راه‌حل Cerebras بسیار ساده‌تر و ظریف‌تر است: با تفکیک محاسبات از حافظه، معماری Weight Streaming اجازه می‌دهد تا مدل‌هایی با هر تعدادی از پارامترها را روی یک CS-2 اجرا کنند.

انقلابی در زمان راه اندازی و قابلیت حمل

فلدمن گفت که با استفاده از ظرفیت محاسباتی WSE-2 و ظرافت معماری معماری Weight Streaming، Cerebras قادر است بزرگترین شبکه های NLP را در یک سیستم واحد پشتیبانی کند. با پشتیبانی از این شبکه ها روی یک CS-2، Cerebras زمان راه اندازی را به چند دقیقه کاهش می دهد و قابلیت حمل مدل را فعال می کند. برای مثال، می‌توان بین GPT-J و GPT-Neo سوئیچ کرد، با چند ضربه کلید، کاری که ماه‌ها زمان مهندسی برای دستیابی به آن در خوشه‌ای متشکل از صدها GPU نیاز دارد.

Cerebras ادعا می کند که مزایای بزرگی نسبت به GPU ها دارد.

توانایی Cerebras برای ارائه مدل‌های زبان بزرگ به توده‌ها با دسترسی مقرون به صرفه و آسان، عصر جدید هیجان‌انگیزی را در هوش مصنوعی باز می‌کند. دن اولدز، مدیر ارشد تحقیقات Intersect360 Research، در بیانیه‌ای گفت: این به سازمان‌هایی که نمی‌توانند ده‌ها میلیون دلار خرج کنند، یک NLP آسان و ارزان در سطح شیب دار برای لیگ برتر می‌دهد. دیدن برنامه‌ها و اکتشافات جدید مشتریان CS-2 هنگام آموزش مدل‌های کلاس GPT-3 و GPT-J در مجموعه داده‌های عظیم، جالب خواهد بود.

پذیرش در سراسر جهان

Cerebras مشتریانی در آمریکای شمالی، آسیا، اروپا و خاورمیانه دارد. راه‌حل‌های هوش مصنوعی را به فهرست رو به رشدی از مشتریان در بخش‌های سازمانی، دولتی و محاسباتی با عملکرد بالا (HPC) از جمله GSK، AstraZeneca، TotalEnergies، nference، آزمایشگاه ملی آرگون، آزمایشگاه ملی لارنس لیورمور، مرکز ابررایانه‌های پیتسبورگ، مرکز ابررایانه‌های لایبنیتز ارائه می‌کند. ، مرکز ملی کاربردهای ابررایانه، مرکز محاسبات موازی ادینبورگ (EPCC)، آزمایشگاه ملی فناوری انرژی، و دستگاه های الکترونی توکیو.

فلدمن گفت: «ما نه تنها این مشتریان را داریم، بلکه آنها در آنجا چیزهای بسیار خوبی درباره ما می گویند. AstraZeneca گفت آموزش که قبلاً دو هفته بر روی خوشه‌های GPU طول می‌کشید، در چند روز انجام دادیم.

GSK گفت Cerebras قادر به انجام کار 10 برابر سریعتر از 16 GPU است.

فلدمن گفت: «خیلی از مشتریان باحال مشکلات جالبی را حل می کنند. «میزان محاسبات مورد استفاده در این مدل‌های زبان بزرگ به‌طور تصاعدی در حال افزایش است. و این مدل های زبان آنقدر بزرگ شده اند که فقط بخش کوچکی از بازار می تواند آنها را آموزش دهد. ما تغییری داریم که به اکثریت قریب به اتفاق اقتصاد این امکان را می‌دهد که این مدل‌ها را به هر سازمانی که به بزرگترین مدل‌ها دسترسی دارد آموزش دهد.»

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.