ما هیجان زده هستیم که Transform 2022 را به صورت حضوری در 19 ژوئیه و تقریباً 20 تا 28 ژوئیه بازگردانیم. برای گفتگوهای روشنگر و فرصت های شبکه هیجان انگیز به رهبران هوش مصنوعی و داده بپیوندید. امروز ثبت نام کنید!
Cerebras Systems گفت که رکورد بزرگترین مدلهای هوش مصنوعی را که تا کنون بر روی یک دستگاه آموزش داده شده است، ثبت کرده است، که در این مورد یک ویفر سیلیکونی غولپیکر با صدها هزار هسته است.
می توانم بگویم که این رکورد برای یک تراشه است، اما Cerebras یک تراشه بزرگ از ویفر سیلیکونی 8.5 اینچی می سازد که به طور معمول به صدها تراشه تقسیم می شود. بنابراین، کلمه “دستگاه” باید به این معنی باشد که هیچ کس دیگری چنین تراشه عظیمی با 850000 هسته و 2.55 تریلیون ترانزیستور نمی سازد.
مزیت ویفر به اندازه بشقاب شام
سیستم Cerebras CS-2 می تواند مدل های پردازش زبان طبیعی (NLP) با چند میلیارد پارامتر از جمله مدل های GPT-3XL 1.3 میلیارد و همچنین GPT-J 6B، GPT-3 13B و GPT-NeoX 20B را آموزش دهد. سربراس گفت که برای اولین بار، یک سیستم CS-2 منفرد با یک ویفر سربراس می تواند مدل هایی را با حداکثر 20 میلیارد پارامتر آموزش دهد – شاهکاری که در هیچ دستگاه دیگری امکان پذیر نیست. یکی از سیستمهای CS-2 درون یک رک مرکز داده استاندارد قرار میگیرد و حدود 26 اینچ ارتفاع دارد.
با فعال کردن یک CS-2 برای آموزش این مدلها، Cerebras زمان مهندسی سیستم لازم برای اجرای مدلهای NLP بزرگ را از ماهها به دقیقه کاهش میدهد. همچنین یکی از دردناک ترین جنبه های NLP را حذف می کند – یعنی پارتیشن بندی مدل در صدها یا هزاران واحد پردازش گرافیکی کوچک (GPU).
اندرو فلدمن، مدیر عامل Cerebras Systems در مصاحبه ای گفت: “تنظیم کردن آن به 16 ضربه کلید نیاز دارد.”
معایب استفاده از پردازندههای گرافیکی با مدلهای هوش مصنوعی
فلدمن توضیح داد که مدل های بزرگتر برای NLP دقیق تر هستند. اما تعداد کمی از شرکتها منابع و تخصص لازم را برای انجام کار پرزحمت شکستن این مدلهای بزرگ و پخش آنها در صدها یا هزاران پردازنده گرافیکی، که رقیب محاسباتی دستگاههای Cerebras هستند، داشتند.
او گفت: «این بدان معناست که هر شبکه باید سازماندهی مجدد، توزیع مجدد، و همه کارها دوباره برای هر خوشه انجام شود. “اگر می خواهید حتی یک GPU را در آن کلاستر تغییر دهید، باید همه کارها را دوباره انجام دهید. اگر می خواهید مدل را به خوشه دیگری ببرید، کار را دوباره انجام می دهید. اگر میخواهید مدل جدیدی را به این خوشه ببرید، باید کار را دوباره انجام دهید.»
فلدمن گفت که Cerebras در حال دموکراتیک کردن دسترسی به برخی از بزرگترین مدلها در اکوسیستم هوش مصنوعی است.
کیم برانسون، معاون ارشد هوش مصنوعی و یادگیری ماشین در GSK، در بیانیهای گفت: «GSK مجموعه دادههای بسیار بزرگی را از طریق تحقیقات ژنومی و ژنتیکی خود تولید میکند و این مجموعه دادهها به تجهیزات جدیدی برای انجام یادگیری ماشینی نیاز دارند». Cerebras CS-2 یک جزء حیاتی است که به GSK اجازه میدهد تا مدلهای زبانی را با استفاده از مجموعه دادههای بیولوژیکی در مقیاس و اندازهای که قبلاً دست نیافتنی نبود، آموزش دهد. این مدلهای بنیادی اساس بسیاری از سیستمهای هوش مصنوعی ما را تشکیل میدهند و نقشی حیاتی در کشف داروهای تحولآفرین ایفا میکنند.»
این قابلیتها با ترکیبی از اندازه و منابع محاسباتی موجود در Cerebras Wafer Scale Engine-2 (WSE-2) و پسوندهای معماری نرمافزار Weight Streaming که از طریق انتشار نسخه R1.4 پلتفرم نرمافزار Cerebras، CSoft در دسترس هستند، ممکن میشوند. .

فلدمن گفت وقتی یک مدل روی یک پردازنده قرار می گیرد، آموزش هوش مصنوعی آسان است. اما زمانی که یک مدل دارای پارامترهای بیشتری نسبت به حافظه باشد یا یک لایه به محاسبات بیشتری نسبت به پردازشگر واحد نیاز دارد، پیچیدگی منفجر می شود. مدل باید شکسته شود و در صدها یا هزاران پردازنده گرافیکی پخش شود. این فرآیند دردناک است و اغلب ماه ها طول می کشد تا کامل شود.
فلدمن گفت: «ما کاری را انجام دادهایم که در حال حاضر ماهها طول میکشد تا جامعه ML انجام دهد و آن را به 16 ضربه کلید تبدیل کردهایم.
کاهش نیاز به مهندسان سیستم
بدتر از همه، این فرآیند برای هر جفت خوشه محاسباتی شبکه منحصر به فرد است، بنابراین کار برای خوشه های محاسباتی مختلف یا در سراسر شبکه های عصبی قابل حمل نیست. فلدمن گفت که این کاملاً سفارشی است و به همین دلیل است که شرکتها هنگام دستیابی به این دستاورد، مقالاتی را در مورد آن منتشر میکنند. این یک مشکل بزرگ مهندسی سیستم است، و این چیزی نیست که متخصصان یادگیری ماشین برای انجام آن آموزش دیده باشند.
فلدمن گفت: «اعلامیه ما برای هر سازمانی امکان دسترسی به بزرگترین مدلها را فراهم میکند و نشان میدهد که میتوان آنها را به سرعت و به راحتی روی یک دستگاه آموزش داد.
او گفت که انجام این کار بر روی یک خوشه از GPU ها دشوار است زیرا “گسترش یک شبکه عصبی بزرگ بر روی یک خوشه از GPU ها عمیقا دشوار است.”
او افزود: “این یک مشکل چند بعدی تتریس است، جایی که شما باید محاسبات، حافظه و ارتباطات را جدا کنید و آنها را در صدها یا هزاران واحد پردازش گرافیکی توزیع کنید.”
بزرگترین پردازنده ای که تا کنون ساخته شده است

Cerebras WSE-2 بزرگترین پردازنده ای است که تاکنون ساخته شده است. این پردازنده 56 برابر بزرگتر است، 2.55 تریلیون ترانزیستور بیشتر دارد و 100 برابر بزرگترین پردازنده گرافیکی هسته های محاسباتی دارد. اندازه و منابع محاسباتی در WSE-2 هر لایه از حتی بزرگترین شبکه های عصبی را قادر می سازد تا جا بیفتند. معماری Weight Streaming Cerebras حافظه و محاسبات را جدا میکند و به حافظه (که برای ذخیره پارامترها استفاده میشود) اجازه میدهد جدا از محاسبات رشد کند. بنابراین یک CS-2 می تواند مدل هایی با صدها میلیارد و حتی تریلیون ها پارامتر را پشتیبانی کند.
فلدمن گفت: «صرفاً برای یادآوری، وقتی می گوییم بزرگ هستیم، 123 برابر هسته، 1000 برابر حافظه و 12000 برابر پهنای باند حافظه بیشتر از یک راه حل GPU داریم. و ما تکنیکی به نام استریم وزن ابداع کردیم که در آن میتوانیم حافظه را از تراشه جدا از ویفر نگه داریم.
فلدمن گفت، از سوی دیگر، واحدهای پردازش گرافیکی دارای مقدار ثابتی از حافظه در هر GPU هستند. اگر مدل نیاز به پارامترهای بیشتری نسبت به حافظه دارد، باید پردازندههای گرافیکی بیشتری خریداری کرد و سپس کار را روی چندین GPU پخش کرد. نتیجه انفجار پیچیدگی است. راهحل Cerebras بسیار سادهتر و ظریفتر است: با تفکیک محاسبات از حافظه، معماری Weight Streaming اجازه میدهد تا مدلهایی با هر تعدادی از پارامترها را روی یک CS-2 اجرا کنند.
انقلابی در زمان راه اندازی و قابلیت حمل
فلدمن گفت که با استفاده از ظرفیت محاسباتی WSE-2 و ظرافت معماری معماری Weight Streaming، Cerebras قادر است بزرگترین شبکه های NLP را در یک سیستم واحد پشتیبانی کند. با پشتیبانی از این شبکه ها روی یک CS-2، Cerebras زمان راه اندازی را به چند دقیقه کاهش می دهد و قابلیت حمل مدل را فعال می کند. برای مثال، میتوان بین GPT-J و GPT-Neo سوئیچ کرد، با چند ضربه کلید، کاری که ماهها زمان مهندسی برای دستیابی به آن در خوشهای متشکل از صدها GPU نیاز دارد.

توانایی Cerebras برای ارائه مدلهای زبان بزرگ به تودهها با دسترسی مقرون به صرفه و آسان، عصر جدید هیجانانگیزی را در هوش مصنوعی باز میکند. دن اولدز، مدیر ارشد تحقیقات Intersect360 Research، در بیانیهای گفت: این به سازمانهایی که نمیتوانند دهها میلیون دلار خرج کنند، یک NLP آسان و ارزان در سطح شیب دار برای لیگ برتر میدهد. دیدن برنامهها و اکتشافات جدید مشتریان CS-2 هنگام آموزش مدلهای کلاس GPT-3 و GPT-J در مجموعه دادههای عظیم، جالب خواهد بود.
پذیرش در سراسر جهان
Cerebras مشتریانی در آمریکای شمالی، آسیا، اروپا و خاورمیانه دارد. راهحلهای هوش مصنوعی را به فهرست رو به رشدی از مشتریان در بخشهای سازمانی، دولتی و محاسباتی با عملکرد بالا (HPC) از جمله GSK، AstraZeneca، TotalEnergies، nference، آزمایشگاه ملی آرگون، آزمایشگاه ملی لارنس لیورمور، مرکز ابررایانههای پیتسبورگ، مرکز ابررایانههای لایبنیتز ارائه میکند. ، مرکز ملی کاربردهای ابررایانه، مرکز محاسبات موازی ادینبورگ (EPCC)، آزمایشگاه ملی فناوری انرژی، و دستگاه های الکترونی توکیو.
فلدمن گفت: «ما نه تنها این مشتریان را داریم، بلکه آنها در آنجا چیزهای بسیار خوبی درباره ما می گویند. AstraZeneca گفت آموزش که قبلاً دو هفته بر روی خوشههای GPU طول میکشید، در چند روز انجام دادیم.
GSK گفت Cerebras قادر به انجام کار 10 برابر سریعتر از 16 GPU است.
فلدمن گفت: «خیلی از مشتریان باحال مشکلات جالبی را حل می کنند. «میزان محاسبات مورد استفاده در این مدلهای زبان بزرگ بهطور تصاعدی در حال افزایش است. و این مدل های زبان آنقدر بزرگ شده اند که فقط بخش کوچکی از بازار می تواند آنها را آموزش دهد. ما تغییری داریم که به اکثریت قریب به اتفاق اقتصاد این امکان را میدهد که این مدلها را به هر سازمانی که به بزرگترین مدلها دسترسی دارد آموزش دهد.»
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.