در تاریخ 11 تا 12 ژوئیه به مدیران ارشد در سانفرانسیسکو بپیوندید تا بشنوید که چگونه رهبران سرمایهگذاریهای هوش مصنوعی را برای موفقیت ادغام و بهینه میکنند.. بیشتر بدانید
پس از ظهور اولیه Hadoop، تیم های داده در سراسر صنایع، Apache Spark را به عنوان چارچوبی برای پردازش کلان داده های توزیع شده پذیرفته اند. پلتفرم منبع باز تا حد زیادی جایگزین Hadoop’s Mapreduce شده است، زیرا امکان پردازش سریعتر مجموعه داده ها در حافظه و مدیریت موارد استفاده که Hadoop قادر به مدیریت آنها نبود، شده است. Spark همچنین از نظر APIها در دسترس تر است و با تحمل خطای کافی پشتیبانی می شود.
با این حال، با توجه به اینکه پیشبینی میشود میزان دادهها در جهان تا سال ۲۰۲۶ به ۲۲۱ زتابایت افزایش یابد، برای سازمانها دشوار است که به اطلاعاتی که در اختیار دارند دست پیدا کنند. با سرعت پردازش فعلی، شرکت ها در برنامه های تجاری مانند تجزیه و تحلیل با تاخیر مواجه خواهند شد. و اگر به سمت افزایش سرعت حرکت کنند، هزینه ها افزایش می یابد.
سامیر راحجا، مدیر ارشد مهندسی انویدیا، در کنفرانس جاری GTC 2023، گفت: به همین دلیل است که تیم ها باید به گزینه شتاب بخشیدن به اسپارک با پردازنده های گرافیکی از طریق Rapids نگاه کنند.
>>پوشش مداوم Nvidia GTC بهار 2023 VentureBeat را دنبال کنید<<
رویداد
تبدیل 2023
در 11 تا 12 جولای در سانفرانسیسکو به ما بپیوندید، جایی که مدیران ارشد نحوه ادغام و بهینه سازی سرمایه گذاری های هوش مصنوعی برای موفقیت و اجتناب از دام های رایج را به اشتراک می گذارند.
اکنون ثبت نام کنید
Apache Spark با شتاب GPU
برای رسیدگی به نیازهای داده های آینده با Spark، Raheja پیشنهاد داد که چارچوب را با پردازنده های گرافیکی Nvidia اجرا کنید. او گفت که یک پلاگین jar مانند Rapids Accelerator برای Apache Spark میتواند به پردازش دستهای Spark اجازه دهد تا بدون هیچ تغییری در کد روی پردازندههای گرافیکی اجرا شود.
به گفته او، این نه تنها تیم ها را قادر می سازد تا کارهای داده های عظیم را سریعتر با هزینه کمتری نسبت به CPU ها انجام دهند، بلکه باعث صرفه جویی در مصرف برق نیز می شود.
Rapids Accelerator برای Apache Spark قدرت کتابخانه Rapids cuDF و مقیاس چارچوب محاسباتی توزیع شده Spark را ترکیب می کند. کتابخانه Rapids Accelerator همچنین دارای یک ترکیب شتابدهنده داخلی مبتنی بر UCX است که میتواند برای استفاده از ارتباطات GPU به GPU و قابلیتهای دسترسی مستقیم به حافظه از راه دور پیکربندی شود.
با استفاده از معیار پشتیبانی تصمیم انویدیا – اقتباسی از معیار استاندارد صنعتی TPC-DS، با 100 پرس و جو اصلاح شده – این شرکت توزیع دادههای ابری اسپارک Google را که مبتنی بر پردازنده گرافیکی Rapids است، با توزیع مبتنی بر CPU مقایسه کرد. گره های GPU تمام 100 پرس و جو را تنها در 31 دقیقه در مقابل 176 دقیقه گرفته شده توسط گره های CPU انجام دادند.
از آنجایی که اجرای GPU زمان کمتری می برد، همچنین ثابت کرد که مقرون به صرفه تر از گره های CPU است و تنها 7.20 دلار در مقابل 32.52 دلار برای اجرای CPU هزینه دارد. عملکرد GPU پنج برابر مصرف انرژی بیشتر بود.

راحجا تاکید کرد: “برای هر کسی که حجم کاری داده های بزرگ را اجرا می کند و بودجه ای را مدیریت می کند … عملکرد، هزینه و کارایی فاکتورهای کلیدی هستند و Rapids Accelerator برای اسپارک به هر سه مورد توجه می کند.”
او اضافه کرد که نتایج محک مشابهی در سایر ابرها و توزیعهای Spark با پیکربندیهایی که کاملاً مطابق با Dataproc هستند مشاهده شد. به عنوان مثال، توزیع AWS EMR شتابدهنده Rapids 42% صرفهجویی در هزینه داشت، در حالی که AWS Databricks Photon و Azure Databricks Photon به ترتیب 39% و 34% در هزینه صرفهجویی کردند.

چگونه کار می کند
کلید این مزایا Apache Spark 3 است که پردازش مبتنی بر ستون و قابلیتهای زمانبندی منابع سفارشی آگاه از منابع را به ارمغان میآورد. این به تیمها اجازه میدهد تا وظایف مربوط به منابع شتابدهنده مانند GPU را زمانبندی کنند.
می توانید به نوشتن برنامه خود در APIهایی که با آنها آشنا هستید ادامه دهید – SQL، Python، R، Java و Scala. Spark قدرت محاسباتی توزیع شده و افزایش یافته را فراهم می کند. Spark 3.x برنامهریزی آگاهانه از منابع را فراهم میکند. و پلاگین Rapids Accelerator برای Apache Spark شفافیتی را برای برنامهها برای اجرا بر روی پردازندههای گرافیکی Nvidia فراهم میکند و شتاب را در همکاری با [the] راحجا گفت: پردازنده داخلی موتور اسپارک.
در حال حاضر، شتابدهنده Rapids Spark در آمازون EMR، Cloudera CDP، Databricks ML، Azure Synapse Analytics، Google Cloud Dataproc و توزیعهای منبع باز Apache Spark 3.x موجود است و در داخل و یا در فضای ابری موجود است.
رویداد Nvidia GTC 2023 تا 23 مارس ادامه دارد.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.