Datafold ابزار متفاوت منبع باز را برای اجرای بررسی های اعتبارسنجی داده ها راه اندازی می کند


برای تقویت بیشتر تعهد خود به ارائه پوشش پیشرو در صنعت فناوری داده، VentureBeat مشتاق استقبال از اندرو براست و تونی بائر به عنوان مشارکت کنندگان عادی است. مراقب مقالات آنها در Data Pipeline باشید.

شرکت Datafold که مقر آن در نیویورک است، ابزاری برای تفاوت منبع باز راه‌اندازی کرده است تا به شرکت‌ها کمک کند پایگاه‌های داده را مقایسه کنند و بررسی‌هایی را برای اعتبارسنجی داده‌ها انجام دهند.

شرکت های مدرن به شدت به شیوه های استخراج، بارگذاری و تبدیل (ELT) وابسته هستند. مجموعه داده‌ها از منابع استخراج می‌شوند، در یک انبار داده بارگذاری می‌شوند و سپس تبدیل‌هایی از قبل ایجاد می‌شوند – مانند پاکسازی و پالایش – تا اطلاعات برای موارد استفاده از تجزیه و تحلیل و علم داده آماده شود.

این کار ساده است، به خصوص با استفاده از ابزارهای تکراری و همگام سازی داده ها مانند Fivetran، Airbyte و Stitch، اما حتی رکوردها نیز می توانند در سیستم های متصل به هم به دلیل حذف بسته ها، مشکلات کلی تکرار و خطاهای پیکربندی گم شوند.

این می تواند یکپارچگی داده ها و موارد استفاده پایین دستی را تحت تأثیر قرار دهد.

داده ها برای نجات

برای حل این چالش، Datafold در حال ارائه بسته جدید diffing است. این راه حل که «تفاوت داده» نام دارد، از الگوریتم‌هایی استفاده می‌کند تا فعالانه بررسی کند که آیا داده‌هایی که در انبار داده بارگذاری شده‌اند با منبع یا نقطه استخراج مطابقت دارند یا خیر.

این یک بسته پایتون است و آزمایش را می‌توان در هر ابزار هماهنگ‌سازی یا زمان‌بندی تعبیه کرد تا مشخص شود آیا دو پایگاه داده حاوی داده‌های یکسانی هستند یا خیر. اگر ناهماهنگی وجود داشته باشد، خیلی سریع مشخص می‌کند که کجاست و نشان می‌دهد که در CLI شما یا می‌تواند آن را در یک پایگاه داده به واقعیت تبدیل کند.» این امر باعث می‌شود که هر گونه ناهماهنگی را برطرف کنید و مطمئن باشید که هیچ داده‌ای را از پایگاه داده منبع از دست نمی‌دهید یا نادرست ارائه نمی‌دهید.»

راه حل می تواند در عرض چند ثانیه یک مقایسه در سطح ردیف جداول انجام دهد. قبل از این، تیم‌های مهندسی داده‌ها باید به بررسی‌های دستی یک‌باره و بررسی‌های زمان‌بر با استفاده از ابزارهای تغییر موقتی تکیه می‌کردند تا احتمال مغایرت‌ها را رد کنند و از صحت ۱۰۰٪ داده‌های تکرار شده از طریق ابزارهای همگام‌سازی اطمینان حاصل کنند.

«تفاوت داده‌های منبع باز به هش کردن و الگوریتم‌های جستجوی پیشرفته برای شناسایی مؤثر ردیف‌های واگرا در مقیاس متکی است. برای مقایسه کامل جداول با 25 میلیون ردیف فقط ده ثانیه طول می کشد و برای انجام مقایسه برای یک مجموعه داده 1 میلیارد ردیفی کمتر از 5 دقیقه طول می کشد – تقریباً همان زمانی که برای اجرای یک پرس و جو به سادگی شمارش می شود. ردیف، “مژانسکی گفت.

گسترش پیشنهاد موجود

این پیشنهاد به عنوان توسعه ابزار اصلی دیتافولد ارائه می شود که آزمایش خودکار را برای بررسی تغییرات (مثلا کد dbt SQL) پس از مرحله تبدیل انجام می دهد. این تجزیه و تحلیل می کند که چگونه تغییر در کد بر داده های تولید شده در کل خط لوله داده تأثیر می گذارد.

مدیر عامل شرکت افزود: «تفاوت داده منبع باز عملکرد متقابل پایگاه داده را اضافه می کند، در نتیجه موارد استفاده تحت پوشش را از آزمایش تنها تبدیل (T of ELT) تا اعتبارسنجی تکرار داده ها (EL of ELT) در کل پلت فرم داده گسترش می دهد.

این راه حل از امروز تحت مجوز MIT در دسترس است و شامل کانکتورهایی برای Postgres، MySQL، Snowflake، BigQuery، Redshift، Presto و Oracle است.

این شرکت که 20 میلیون دلار در نوامبر 2021 جمع آوری کرد، گفت که همچنین قصد دارد از مشارکت کنندگان دعوت کند تا برای سایر منابع داده کانکتور بسازند. سایر شرکت های پیشرو که در بخش قابلیت اطمینان داده ها کار می کنند عبارتند از Bigeye و Monte Carlo.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.