مدل هوش مصنوعی از OpenAI به طور خودکار گفتار را تشخیص می دهد و آن را به انگلیسی ترجمه می کند


شکل موج صورتی روی پس‌زمینه آبی که به‌طور شاعرانه صدا را پیشنهاد می‌کند.
بزرگنمایی کنید / شکل موج صورتی روی پس‌زمینه آبی که تصویری بصری از صدا را نشان می‌دهد.

بنج ادواردز / Ars Technica

روز چهارشنبه، OpenAI یک مدل هوش مصنوعی منبع باز جدید به نام Whisper را منتشر کرد که صدا را در سطحی که به توانایی تشخیص انسان نزدیک می شود، شناسایی و ترجمه می کند. می تواند مصاحبه ها، پادکست ها، مکالمات و موارد دیگر را رونویسی کند.

OpenAI Whisper را بر روی 680000 ساعت داده های صوتی و رونوشت های منطبق به تقریباً 10 زبان جمع آوری شده از وب آموزش داد. به گفته OpenAI، این رویکرد مجموعه باز منجر به “استحکام بهتر لهجه ها، نویز پس زمینه و زبان فنی” شده است. همچنین می تواند زبان گفتاری را تشخیص داده و آن را به انگلیسی ترجمه کند.

OpenAI Whisper را به‌عنوان یک ترانسفورماتور رمزگذار-رمزگشا توصیف می‌کند، نوعی شبکه عصبی که می‌تواند از بافت استخراج‌شده از داده‌های ورودی برای یادگیری تداعی‌هایی استفاده کند که می‌توانند سپس به خروجی مدل ترجمه شوند. OpenAI این نمای کلی از عملیات Whisper را ارائه می دهد:

صدای ورودی به تکه‌های 30 ثانیه‌ای تقسیم می‌شود، به یک طیف‌نگار log-Mel تبدیل می‌شود و سپس به یک رمزگذار ارسال می‌شود. یک رمزگشا برای پیش‌بینی عنوان متن مربوطه، با نشانه‌های خاصی آمیخته شده است که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، مهرهای زمانی در سطح عبارت، رونویسی گفتار چند زبانه و ترجمه گفتار به انگلیسی هدایت می‌کند.

با منبع باز Whisper، OpenAI امیدوار است مدل پایه جدیدی را معرفی کند که دیگران بتوانند در آینده بر روی آن برای بهبود پردازش گفتار و ابزارهای دسترسی ایجاد کنند. OpenAI سابقه قابل توجهی در این زمینه دارد. در ژانویه 2021، OpenAI CLIP را منتشر کرد، یک مدل بینایی کامپیوتری منبع باز که احتمالاً عصر اخیر فناوری سنتز تصویر در حال پیشرفت سریع مانند DALL-E 2 و Stable Diffusion را روشن کرد.

در Ars Technica، ما Whisper را از روی کد موجود در GitHub آزمایش کردیم و نمونه‌های متعددی از جمله یک قسمت پادکست و یک بخش صوتی که از یک مصاحبه تلفنی قابل درک است، به آن داده شد. اگرچه در حین اجرا از طریق یک CPU استاندارد دسکتاپ اینتل (این فناوری هنوز در زمان واقعی کار نمی کند)، مدتی طول کشید، اما Whisper در انتقال صدا به متن از طریق برنامه پایتون نمایشی کار خوبی انجام داد – به مراتب بهتر از برخی که با هوش مصنوعی کار می کنند. خدمات رونویسی صوتی که در گذشته امتحان کرده ایم.

نمونه خروجی کنسول از برنامه نمایشی Whisper OpenAI هنگام رونویسی یک پادکست.
بزرگنمایی کنید / نمونه خروجی کنسول از برنامه نمایشی Whisper OpenAI هنگام رونویسی یک پادکست.

بنج ادواردز / Ars Technica

با تنظیم مناسب، Whisper به راحتی می‌تواند برای رونویسی مصاحبه‌ها، پادکست‌ها، و ترجمه بالقوه پادکست‌های تولید شده به زبان‌های غیرانگلیسی به انگلیسی در دستگاه شما به صورت رایگان استفاده شود. این یک ترکیب قوی است که ممکن است در نهایت صنعت رونویسی را مختل کند.

مانند تقریباً هر مدل اصلی جدید هوش مصنوعی این روزها، Whisper مزایای مثبت و پتانسیل سوء استفاده را به همراه دارد. در کارت مدل Whisper (در بخش «پیام‌های گسترده‌تر»)، OpenAI هشدار می‌دهد که Whisper می‌تواند برای نظارت خودکار یا شناسایی تک تک سخنرانان در یک مکالمه استفاده شود، اما شرکت امیدوار است که «در درجه اول برای اهداف مفید» استفاده شود.