برای تقویت بیشتر تعهد خود به ارائه پوشش پیشرو در صنعت فناوری داده، VentureBeat مشتاق استقبال از اندرو براست و تونی بائر به عنوان مشارکت کنندگان عادی است. مراقب مقالات آنها در Data Pipeline باشید.
شرکت Datafold که مقر آن در نیویورک است، ابزاری برای تفاوت منبع باز راهاندازی کرده است تا به شرکتها کمک کند پایگاههای داده را مقایسه کنند و بررسیهایی را برای اعتبارسنجی دادهها انجام دهند.
شرکت های مدرن به شدت به شیوه های استخراج، بارگذاری و تبدیل (ELT) وابسته هستند. مجموعه دادهها از منابع استخراج میشوند، در یک انبار داده بارگذاری میشوند و سپس تبدیلهایی از قبل ایجاد میشوند – مانند پاکسازی و پالایش – تا اطلاعات برای موارد استفاده از تجزیه و تحلیل و علم داده آماده شود.
این کار ساده است، به خصوص با استفاده از ابزارهای تکراری و همگام سازی داده ها مانند Fivetran، Airbyte و Stitch، اما حتی رکوردها نیز می توانند در سیستم های متصل به هم به دلیل حذف بسته ها، مشکلات کلی تکرار و خطاهای پیکربندی گم شوند.
این می تواند یکپارچگی داده ها و موارد استفاده پایین دستی را تحت تأثیر قرار دهد.
داده ها برای نجات
برای حل این چالش، Datafold در حال ارائه بسته جدید diffing است. این راه حل که «تفاوت داده» نام دارد، از الگوریتمهایی استفاده میکند تا فعالانه بررسی کند که آیا دادههایی که در انبار داده بارگذاری شدهاند با منبع یا نقطه استخراج مطابقت دارند یا خیر.
این یک بسته پایتون است و آزمایش را میتوان در هر ابزار هماهنگسازی یا زمانبندی تعبیه کرد تا مشخص شود آیا دو پایگاه داده حاوی دادههای یکسانی هستند یا خیر. اگر ناهماهنگی وجود داشته باشد، خیلی سریع مشخص میکند که کجاست و نشان میدهد که در CLI شما یا میتواند آن را در یک پایگاه داده به واقعیت تبدیل کند.» این امر باعث میشود که هر گونه ناهماهنگی را برطرف کنید و مطمئن باشید که هیچ دادهای را از پایگاه داده منبع از دست نمیدهید یا نادرست ارائه نمیدهید.»
راه حل می تواند در عرض چند ثانیه یک مقایسه در سطح ردیف جداول انجام دهد. قبل از این، تیمهای مهندسی دادهها باید به بررسیهای دستی یکباره و بررسیهای زمانبر با استفاده از ابزارهای تغییر موقتی تکیه میکردند تا احتمال مغایرتها را رد کنند و از صحت ۱۰۰٪ دادههای تکرار شده از طریق ابزارهای همگامسازی اطمینان حاصل کنند.
«تفاوت دادههای منبع باز به هش کردن و الگوریتمهای جستجوی پیشرفته برای شناسایی مؤثر ردیفهای واگرا در مقیاس متکی است. برای مقایسه کامل جداول با 25 میلیون ردیف فقط ده ثانیه طول می کشد و برای انجام مقایسه برای یک مجموعه داده 1 میلیارد ردیفی کمتر از 5 دقیقه طول می کشد – تقریباً همان زمانی که برای اجرای یک پرس و جو به سادگی شمارش می شود. ردیف، “مژانسکی گفت.
گسترش پیشنهاد موجود
این پیشنهاد به عنوان توسعه ابزار اصلی دیتافولد ارائه می شود که آزمایش خودکار را برای بررسی تغییرات (مثلا کد dbt SQL) پس از مرحله تبدیل انجام می دهد. این تجزیه و تحلیل می کند که چگونه تغییر در کد بر داده های تولید شده در کل خط لوله داده تأثیر می گذارد.
مدیر عامل شرکت افزود: «تفاوت داده منبع باز عملکرد متقابل پایگاه داده را اضافه می کند، در نتیجه موارد استفاده تحت پوشش را از آزمایش تنها تبدیل (T of ELT) تا اعتبارسنجی تکرار داده ها (EL of ELT) در کل پلت فرم داده گسترش می دهد.
این راه حل از امروز تحت مجوز MIT در دسترس است و شامل کانکتورهایی برای Postgres، MySQL، Snowflake، BigQuery، Redshift، Presto و Oracle است.
این شرکت که 20 میلیون دلار در نوامبر 2021 جمع آوری کرد، گفت که همچنین قصد دارد از مشارکت کنندگان دعوت کند تا برای سایر منابع داده کانکتور بسازند. سایر شرکت های پیشرو که در بخش قابلیت اطمینان داده ها کار می کنند عبارتند از Bigeye و Monte Carlo.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. کسب اطلاعات بیشتر در مورد عضویت.