GTC 2023: انویدیا به اشتراک می‌گذارد که Rapids چگونه می‌تواند Apache Spark را در آینده محافظت کند


در تاریخ 11 تا 12 ژوئیه به مدیران ارشد در سانفرانسیسکو بپیوندید تا بشنوید که چگونه رهبران سرمایه‌گذاری‌های هوش مصنوعی را برای موفقیت ادغام و بهینه می‌کنند.. بیشتر بدانید


پس از ظهور اولیه Hadoop، تیم های داده در سراسر صنایع، Apache Spark را به عنوان چارچوبی برای پردازش کلان داده های توزیع شده پذیرفته اند. پلتفرم منبع باز تا حد زیادی جایگزین Hadoop’s Mapreduce شده است، زیرا امکان پردازش سریعتر مجموعه داده ها در حافظه و مدیریت موارد استفاده که Hadoop قادر به مدیریت آنها نبود، شده است. Spark همچنین از نظر APIها در دسترس تر است و با تحمل خطای کافی پشتیبانی می شود.

با این حال، با توجه به اینکه پیش‌بینی می‌شود میزان داده‌ها در جهان تا سال ۲۰۲۶ به ۲۲۱ زتابایت افزایش یابد، برای سازمان‌ها دشوار است که به اطلاعاتی که در اختیار دارند دست پیدا کنند. با سرعت پردازش فعلی، شرکت ها در برنامه های تجاری مانند تجزیه و تحلیل با تاخیر مواجه خواهند شد. و اگر به سمت افزایش سرعت حرکت کنند، هزینه ها افزایش می یابد.

سامیر راحجا، مدیر ارشد مهندسی انویدیا، در کنفرانس جاری GTC 2023، گفت: به همین دلیل است که تیم ها باید به گزینه شتاب بخشیدن به اسپارک با پردازنده های گرافیکی از طریق Rapids نگاه کنند.

>>پوشش مداوم Nvidia GTC بهار 2023 VentureBeat را دنبال کنید<<

رویداد

تبدیل 2023

در 11 تا 12 جولای در سانفرانسیسکو به ما بپیوندید، جایی که مدیران ارشد نحوه ادغام و بهینه سازی سرمایه گذاری های هوش مصنوعی برای موفقیت و اجتناب از دام های رایج را به اشتراک می گذارند.

اکنون ثبت نام کنید

Apache Spark با شتاب GPU

برای رسیدگی به نیازهای داده های آینده با Spark، Raheja پیشنهاد داد که چارچوب را با پردازنده های گرافیکی Nvidia اجرا کنید. او گفت که یک پلاگین jar مانند Rapids Accelerator برای Apache Spark می‌تواند به پردازش دسته‌ای Spark اجازه دهد تا بدون هیچ تغییری در کد روی پردازنده‌های گرافیکی اجرا شود.

به گفته او، این نه تنها تیم ها را قادر می سازد تا کارهای داده های عظیم را سریعتر با هزینه کمتری نسبت به CPU ها انجام دهند، بلکه باعث صرفه جویی در مصرف برق نیز می شود.

Rapids Accelerator برای Apache Spark قدرت کتابخانه Rapids cuDF و مقیاس چارچوب محاسباتی توزیع شده Spark را ترکیب می کند. کتابخانه Rapids Accelerator همچنین دارای یک ترکیب شتاب‌دهنده داخلی مبتنی بر UCX است که می‌تواند برای استفاده از ارتباطات GPU به GPU و قابلیت‌های دسترسی مستقیم به حافظه از راه دور پیکربندی شود.

با استفاده از معیار پشتیبانی تصمیم انویدیا – اقتباسی از معیار استاندارد صنعتی TPC-DS، با 100 پرس و جو اصلاح شده – این شرکت توزیع داده‌های ابری اسپارک Google را که مبتنی بر پردازنده گرافیکی Rapids است، با توزیع مبتنی بر CPU مقایسه کرد. گره های GPU تمام 100 پرس و جو را تنها در 31 دقیقه در مقابل 176 دقیقه گرفته شده توسط گره های CPU انجام دادند.

از آنجایی که اجرای GPU زمان کمتری می برد، همچنین ثابت کرد که مقرون به صرفه تر از گره های CPU است و تنها 7.20 دلار در مقابل 32.52 دلار برای اجرای CPU هزینه دارد. عملکرد GPU پنج برابر مصرف انرژی بیشتر بود.

معیارهای NDS
معیارهای NDS

راحجا تاکید کرد: “برای هر کسی که حجم کاری داده های بزرگ را اجرا می کند و بودجه ای را مدیریت می کند … عملکرد، هزینه و کارایی فاکتورهای کلیدی هستند و Rapids Accelerator برای اسپارک به هر سه مورد توجه می کند.”

او اضافه کرد که نتایج محک مشابهی در سایر ابرها و توزیع‌های Spark با پیکربندی‌هایی که کاملاً مطابق با Dataproc هستند مشاهده شد. به عنوان مثال، توزیع AWS EMR شتاب‌دهنده Rapids 42% صرفه‌جویی در هزینه داشت، در حالی که AWS Databricks Photon و Azure Databricks Photon به ترتیب 39% و 34% در هزینه صرفه‌جویی کردند.

پس انداز در ابرهای مختلف

چگونه کار می کند

کلید این مزایا Apache Spark 3 است که پردازش مبتنی بر ستون و قابلیت‌های زمان‌بندی منابع سفارشی آگاه از منابع را به ارمغان می‌آورد. این به تیم‌ها اجازه می‌دهد تا وظایف مربوط به منابع شتاب‌دهنده مانند GPU را زمان‌بندی کنند.

می توانید به نوشتن برنامه خود در APIهایی که با آنها آشنا هستید ادامه دهید – SQL، Python، R، Java و Scala. Spark قدرت محاسباتی توزیع شده و افزایش یافته را فراهم می کند. Spark 3.x برنامه‌ریزی آگاهانه از منابع را فراهم می‌کند. و پلاگین Rapids Accelerator برای Apache Spark شفافیتی را برای برنامه‌ها برای اجرا بر روی پردازنده‌های گرافیکی Nvidia فراهم می‌کند و شتاب را در همکاری با [the] راحجا گفت: پردازنده داخلی موتور اسپارک.

در حال حاضر، شتاب‌دهنده Rapids Spark در آمازون EMR، Cloudera CDP، Databricks ML، Azure Synapse Analytics، Google Cloud Dataproc و توزیع‌های منبع باز Apache Spark 3.x موجود است و در داخل و یا در فضای ابری موجود است.

رویداد Nvidia GTC 2023 تا 23 مارس ادامه دارد.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.