Onehouse با ایجاد نظم در خانه های داده، فناوری Apache Hudi خود را با 25 میلیون دلار افزایش می دهد.


تمام جلسات درخواستی از اجلاس امنیت هوشمند را در اینجا بررسی کنید.


فروشنده داده مدیریت شده Lakehouse Onehouse امروز اعلام کرد که 25 میلیون دلار در یک دور سری سرمایه جمع آوری کرده است تا به پیشرفت بیشتر تلاش های خود برای عرضه به بازار و فناوری مبتنی بر پروژه منبع باز آپاچی هودی کمک کند.

Onehouse یک سال پیش، در فوریه 2022، به عنوان اولین فروشنده تجاری ارائه دهنده پشتیبانی و خدمات برای Apache Hudi، از مخفی کاری ظاهر شد. Hudi، که مخفف Hadoop Upserts Deletes و Incrementals است، ریشه‌های خود را به Uber در سال 2016 بازمی‌گرداند، جایی که برای اولین بار به عنوان فناوری برای کمک به نظم بخشیدن به حجم عظیم داده‌هایی که در دریاچه‌های داده ذخیره می‌شدند، توسعه یافت.

فناوری Hudi فرمت جدول دریاچه داده و همچنین خدماتی را برای کمک به خوشه بندی، بایگانی و تکثیر داده ها ارائه می دهد. Hudi با چندین فناوری منبع باز دیگر جدول دریاچه داده از جمله Apache Iceberg و Databricks Delta Lake رقابت می کند.

هدف در Onehouse ایجاد یک سرویس تحت مدیریت ابری است که می تواند به سازمان ها کمک کند از یک خانه داده مدیریت شده بهره مند شوند. در کنار بودجه جدید، Onehouse ابتکار Onetable خود را اعلام کرد که هدف آن فعال کردن کاربران Iceberg و Delta Lake برای تعامل با Hudi است. با Onetable، سازمان‌ها می‌توانند از Hudi برای دریافت داده‌ها در دریاچه داده استفاده کنند، در حالی که همچنان می‌توانند از فناوری‌های موتور پرس و جو که روی Iceberg – از جمله Snowflake – و همچنین Delta Lake Databricks اجرا می‌شوند، بهره‌مند شوند.

رویداد

اجلاس امنیت هوشمند بر حسب تقاضا

نقش حیاتی هوش مصنوعی و ML در امنیت سایبری و مطالعات موردی خاص صنعت را بیاموزید. امروز جلسات درخواستی را تماشا کنید.

اینجا را تماشا کنید

وینوث چاندار، بنیانگذار و مدیرعامل Onehouse، به VentureBeat گفت: “ما واقعاً در تلاش هستیم تا روش جدیدی برای تفکر در مورد معماری داده ایجاد کنیم.” ما بسیار متقاعد شده‌ایم که مردم باید با یک خانه دریاچه‌ای کارآمد شروع کنند.»

درک روند لیک هاوس داده

خانه دریاچه داده اصطلاحی است که اولین بار توسط Databricks ابداع شد.

هدف Lakehouse داده این است که بهترین جنبه‌های یک دریاچه داده را که حجم زیادی از ذخیره‌سازی داده را فراهم می‌کند، با یک انبار داده که خدمات داده ساختار یافته را برای پرس‌و‌جوها و تجزیه و تحلیل داده‌ها ارائه می‌دهد، ارائه می‌کند. گزارش سال 2022 از Databricks تعدادی از مزایای کلیدی رویکرد داده lakehouse از جمله بهبود کیفیت داده، افزایش بهره‌وری و همکاری بهتر داده را شناسایی کرد.

یکی از مؤلفه‌های کلیدی مدل داده lakehouse، توانایی اعمال ساختار برای دریاچه‌های داده است، جایی که قالب‌های جدول دریاچه داده منبع باز، از جمله Hudi، Delta Lake و Iceberg در آن جا می‌شوند. اکنون چندین فروشنده در حال ساختن پلتفرم‌های کامل با این جدول هستند. فرمت ها به عنوان یک پایه

در میان بسیاری از حامیان Apache Iceberg، Cloudera است که سرویس data lakehouse خود را در آگوست 2022 راه اندازی کرد. Dremio یکی دیگر از حامیان قوی Iceberg است که از آن به عنوان بخشی از پلت فرم داده lakehouse خود استفاده می کند. حتی Snowflake، یکی از پیشگامان مفهوم انبار داده ابری، اکنون از Iceberg پشتیبانی می کند.

Onetable قالب جدول داده دیگری نیست

در هسته اصلی قالب‌های دریاچه داده امروزی، از جمله Hudi، Delta Lake و Iceberg، فایل‌هایی قرار دارند که سازمان‌ها می‌خواهند بتوانند از آن‌ها برای تجزیه و تحلیل، هوش تجاری یا عملیات استفاده کنند.

با این حال، چالشی که پدیدار شده این است که فناوری‌های فروشنده به طور فزاینده‌ای به صورت عمودی یکپارچه شده‌اند – ترکیبی از ذخیره‌سازی داده و موتورهای جستجو. کایل ولر، رئیس محصول در Onehouse، توضیح داد که سازمان‌ها را در مورد اینکه کدام فروشنده را بر اساس رویکرد قالب جدول داده‌ها پشتیبانی می‌شود، گیج می‌کند. رویکرد Onetable برای انتزاع کردن تفاوت‌ها در قالب‌های جدول داده‌ها، برای ایجاد یک لایه تعاملی در نظر گرفته شده است.

ولر به VentureBeat گفت: “هدف و ماموریت Onehouse جدا کردن موتورهای جستجوی داده پردازش داده از نحوه عملکرد زیرساخت داده اصلی شما است.”

ولر افزود که امروزه در پایه بسیاری از دریاچه‌های داده فایل‌هایی با فرمت ذخیره‌سازی اطلاعات پارکت آپاچی ذخیره می‌شوند. کاری که Onetable اساسا انجام می دهد ارائه یک لایه ابرداده در بالای پارکت است که امکان ترجمه آسان از یک قالب جدول به دیگری را فراهم می کند.

جایی که Onetable در مورد استفاده از داده lakehouse قرار می گیرد

چاندار خاطرنشان کرد که Hudi مزایایی را نسبت به سایر فرمت‌ها فراهم می‌کند، مانند تکرار تراکنش‌ها و دریافت سریع داده‌ها.

یکی از موارد استفاده بالقوه که وی ویژگی Onetable را مناسب می‌داند، برای سازمان‌هایی است که از Hudi برای انجام حجم عظیمی از داده‌ها استفاده می‌کنند، اما می‌خواهند بتوانند از داده‌ها با موتور جستجو یا فناوری دیگری مانند استقرار Snowflake Data Cloud استفاده کنند. نوعی از تجزیه و تحلیل

چاندار گفت که بسیاری از شرکت‌ها داده‌ها را در انبارهای داده ذخیره می‌کنند و به‌طور فزاینده‌ای تصمیم به ساخت دریاچه داده یا به دلیل هزینه‌ها یا به دلیل اینکه می‌خواهند یک تیم علمی داده جدید راه‌اندازی کنند، می‌شوند. اولین کاری که این سازمان‌ها انجام خواهند داد، جذب داده‌ها است، و تمام داده‌های تراکنش‌های خود را به دریاچه می‌آورند، جایی که چاندار گفت هودی و سرویس Onehouse برتر هستند.

اکنون با بهره مندی از فناوری Onetable، همان سازمانی که داده ها را به Onehouse وارد کرده است، می تواند از فناوری های دیگری مانند Snowflake و Databricks نیز برای پرس و جوهای داده روی داده ها، برای تجزیه و تحلیل استفاده کند.

چاندار در انتظار هر دو پلتفرم Hudi و Onehouse تاکید کرد که بهینه سازی بیشتر توانایی سازمان ها برای استفاده سریع از داده ها یک موضوع کلیدی باقی خواهد ماند.

او گفت: «ما در پروژه Hudi اعلام کرده‌ایم که می‌خواهیم در مقطعی یک لایه کش اضافه کنیم. “ما در مورد هر چیزی و همه چیز در مورد داده ها فکر می کنیم و اینکه چگونه می توانیم آن را به خوبی بهینه کنیم.”

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.