Deep Dive: چگونه داده های مصنوعی می توانند AR/VR و metaverse را تقویت کنند


آیا نتوانستید در Transform 2022 شرکت کنید؟ اکنون تمام جلسات اجلاس را در کتابخانه درخواستی ما بررسی کنید! اینجا را تماشا کنید.


متاوره تخیل جمعی ما را مجذوب خود کرده است. توسعه تصاعدی در دستگاه‌های متصل به اینترنت و محتوای مجازی، متاورس را برای مقبولیت عمومی آماده می‌کند و کسب‌وکارها را ملزم می‌کند تا فراتر از رویکردهای سنتی برای ایجاد محتوای متاورس بروند. با این حال، فناوری‌های نسل بعدی مانند متاورس که از هوش مصنوعی (AI) و یادگیری ماشینی (ML) استفاده می‌کند، برای عملکرد مؤثر به مجموعه داده‌های عظیمی متکی هستند.

این اتکا به مجموعه داده های بزرگ چالش های جدیدی را به همراه دارد. کاربران فناوری از نحوه کسب، ذخیره و استفاده از داده‌های شخصی حساس خود آگاه‌تر شده‌اند و در نتیجه مقرراتی برای جلوگیری از استفاده سازمان‌ها از داده‌های شخصی بدون مجوز صریح طراحی شده است.

بدون مقادیر زیاد داده‌های دقیق، آموزش یا توسعه مدل‌های AI/ML غیرممکن است، که به شدت توسعه متاورس را محدود می‌کند. همانطور که این معما شدیدتر می شود، داده های مصنوعی به عنوان یک راه حل مورد توجه قرار می گیرند.

در واقع، به گفته گارتنر، تا سال 2024، 60 درصد از داده های مورد نیاز برای ایجاد پروژه های هوش مصنوعی و تحلیلی به صورت مصنوعی تولید می شود.

الگوریتم‌های یادگیری ماشینی داده‌های مصنوعی را با مصرف داده‌های واقعی برای آموزش الگوهای رفتاری و تولید داده‌های جعلی شبیه‌سازی شده تولید می‌کنند که ویژگی‌های آماری مجموعه داده اصلی را حفظ می‌کند. چنین داده‌هایی می‌توانند شرایط دنیای واقعی را تکرار کنند و بر خلاف مجموعه داده‌های ناشناس استاندارد، در برابر نقص‌های مشابه داده‌های واقعی آسیب‌پذیر نیستند.

تجسم مجدد جهان های دیجیتال با داده های مصنوعی

همانطور که پیشرفت‌های AR/VR و متاورس به سمت محیط‌های دیجیتالی دقیق‌تر پیش می‌روند، اکنون به قابلیت‌های جدیدی برای تعامل انسان‌ها با دنیای دیجیتال نیاز دارند. این شامل توانایی تعامل با اشیاء مجازی، بهینه‌سازی رندر روی دستگاه با استفاده از برآورد دقیق نگاه چشم، نمایش واقعی آواتار کاربر و ایجاد یک پوشش دیجیتال سه بعدی جامد در بالای محیط واقعی است. مدل‌های ML اشیاء سه‌بعدی مانند مش‌ها، مدل‌های شکل‌پذیر، نرمال‌های سطحی را از عکس‌ها یاد می‌گیرند و به دست آوردن چنین داده‌های بصری برای آموزش این مدل‌های هوش مصنوعی چالش برانگیز است.

آموزش یک مدل سه بعدی به حجم زیادی از داده های صورت و بدن، از جمله حاشیه نویسی سه بعدی دقیق نیاز دارد. همچنین باید به مدل آموزش داده شود تا کارهایی مانند تخمین وضعیت دست و مش، تخمین وضعیت بدن، تحلیل نگاه، بازسازی محیط سه بعدی و سنتز آواتار کدک را انجام دهد.

یاشار بهزادی می‌گوید: «متاورس با مدل‌های یادگیری ماشین بینایی رایانه‌ای جدید و قدرتمند که می‌تواند فضای سه‌بعدی اطراف کاربر را درک کند، حرکت را با دقت ثبت کند، ژست‌ها و تعاملات را درک کند، و احساسات، گفتار و جزئیات چهره را به آواتارهای فوتورئالیستی ترجمه کند، نیرو می‌گیرد.» مدیر عامل و بنیانگذار Synthesis AI به VentureBeat گفت.

بهزادی گفت: «برای ساخت این مدل‌ها، مدل‌های پایه به مقادیر زیادی داده با برچسب‌های سه بعدی غنی نیاز دارند.

نمونه ای از رندر تخمین ژست برای آواتارهای دیجیتال. منبع: Synthesis AI

به این دلایل، متاورس در حال تجربه یک تغییر پارادایم است – دور شدن از مدل‌سازی و به سمت یک رویکرد داده محور برای توسعه. به جای ایجاد بهبودهای تدریجی در الگوریتم یا مدل، محققان می توانند با بهبود کیفیت داده های آموزشی، عملکرد مدل هوش مصنوعی متاورس را بسیار موثرتر بهینه کنند.

«رویکردهای مرسوم برای ساخت بینایی رایانه‌ای به حاشیه‌نویس‌های انسانی متکی است که نمی‌توانند برچسب‌های لازم را ارائه دهند. با این حال، داده‌های مصنوعی یا داده‌های تولید شده توسط رایانه که از واقعیت تقلید می‌کنند، رویکرد جدید امیدوارکننده‌ای را اثبات کرده‌اند.»

با استفاده از داده‌های مصنوعی، شرکت‌ها می‌توانند داده‌های قابل تنظیمی تولید کنند که می‌تواند پروژه‌ها را کارآمدتر اجرا کند، زیرا می‌توان آن‌ها را به راحتی بین تیم‌های خلاق بدون نگرانی در مورد رعایت قوانین حفظ حریم خصوصی توزیع کرد. این امر استقلال بیشتری را فراهم می‌کند و توسعه‌دهندگان را قادر می‌سازد تا کارآمدتر باشند و روی وظایف محرک درآمد تمرکز کنند.

بهزادی می‌گوید او معتقد است که تلفیق فناوری‌های جلوه‌های بصری سینمایی با مدل‌های مولد هوش مصنوعی به فناوری‌های داده مصنوعی اجازه می‌دهد تا مقادیر زیادی از داده‌های متنوع و کاملاً برچسب‌گذاری شده را برای قدرت بخشیدن به متاورس فراهم کنند.

برای افزایش تجربه کاربر، دستگاه‌های سخت‌افزاری که برای گام نهادن در متاورس استفاده می‌شوند، نقشی به همان اندازه مهم دارند. با این حال، سخت‌افزار باید توسط نرم‌افزاری پشتیبانی شود که انتقال بین دنیای واقعی و مجازی را یکپارچه می‌کند، و این بدون دید کامپیوتری غیرممکن خواهد بود.

برای عملکرد صحیح، سخت افزار AR/VR باید موقعیت خود را در دنیای واقعی درک کند تا کاربران را با یک نقشه سه بعدی دقیق و دقیق از محیط مجازی تقویت کند. بنابراین، تخمین نگاه (به عنوان مثال، پیدا کردن جایی که یک فرد با تصویر صورت و چشمان خود به آن نگاه می کند)، یک مشکل اساسی برای دستگاه های AR و VR فعلی است. به طور خاص، VR به شدت به رندر فووید بستگی دارد، تکنیکی که در آن تصویر در مرکز میدان دید با وضوح بالا و جزئیات عالی تولید می‌شود، اما تصویر در حاشیه به تدریج بدتر می‌شود.

معماری ردیابی و برآورد نگرش چشم برای دستگاه‌های VR، رندر فووید را به کار می‌گیرد. به این معنا که تصویر در مرکز میدان دید با وضوح بالا تولید می‌شود، اما برای عملکرد کارآمدتر، تصویر در حاشیه به تدریج بدتر می‌شود. منبع: Synthesis AI

به گفته ریچارد کریس، معاون پلتفرم توسعه Omniverse در NVIDIA، تولید داده های مصنوعی می تواند به عنوان راه حلی برای چنین مواردی عمل کند، زیرا می تواند نمونه های دقیق بصری از موارد استفاده را هنگام تعامل با اشیا یا ساخت محیط هایی برای آموزش ارائه دهد.

کریس به VentureBeat گفت: «داده‌های مصنوعی تولید شده با شبیه‌سازی، توسعه برنامه‌های AR/VR را با ارائه یکپارچه‌سازی توسعه مستمر و جریان‌های کاری آزمایش سرعت می‌بخشد. علاوه بر این، هنگامی که از دوقلو دیجیتال دنیای واقعی ایجاد می‌شود، چنین داده‌هایی می‌توانند به آموزش هوش مصنوعی برای حسگرهای مختلف میدان نزدیک که برای چشم انسان نامرئی هستند، کمک کند، علاوه بر این، دقت ردیابی حسگرهای مکان را بهبود می‌بخشد.

هنگام ورود به واقعیت مجازی، برای یک تجربه اجتماعی مجازی فراگیر باید با یک آواتار نشان داده شود. محیط‌های متاورس آینده به آواتارهای مجازی واقع‌گرایانه نیاز دارند که افراد واقعی را نشان دهند و بتوانند ژست‌های آنها را ثبت کنند. با این حال، ساخت چنین آواتاری یک مشکل بینایی کامپیوتری پیچیده است که اکنون با استفاده از داده های مصنوعی برطرف می شود.

کریس توضیح داد که بزرگترین چالش برای آواتارهای مجازی این است که چقدر شخصی سازی شده اند. این نسل از کاربران خواهان انواع آواتارها با وفاداری بالا، همراه با لوازم جانبی مانند لباس و مدل مو و احساسات مرتبط هستند، بدون اینکه به حریم خصوصی آسیبی وارد شود.

«تولید رویه‌ای شخصیت‌های دیجیتال انسانی متنوع در مقیاس بزرگ می‌تواند ژست‌های انسانی بی‌پایان متفاوتی ایجاد کند و شخصیت‌هایی را برای موارد استفاده خاص متحرک کند. کریس گفت: تولید رویه‌ای با استفاده از داده‌های مصنوعی به رسیدگی به این سبک‌های آواتار کمک می‌کند.

شناسایی اشیاء با دید کامپیوتری

برای تخمین موقعیت اجسام سه بعدی و خواص مادی آنها در جهان های دیجیتال مانند متاورس، نور باید با جسم و محیط آن تعامل داشته باشد تا اثری شبیه به دنیای واقعی ایجاد کند. بنابراین، مدل‌های بینایی رایانه‌ای مبتنی بر هوش مصنوعی برای متاورس نیازمند درک سطوح جسم برای نمایش دقیق آن‌ها در محیط سه‌بعدی است.

به گفته Swapnil Srivastava، رئیس جهانی داده و تجزیه و تحلیل در Evalueserve، با استفاده از داده‌های مصنوعی، مدل‌های هوش مصنوعی می‌توانند ردیابی واقعی‌تری را بر اساس نوع بدن، نور/روشنایی، پس‌زمینه و محیط‌ها از جمله پیش‌بینی کنند.

فراجهان/جهان جهان یا اکوسیستم‌های مشابه به شدت به انسان‌های بیانگر و رفتاری فوتورئالیستی وابسته هستند که اکنون با داده‌های مصنوعی قابل دستیابی هستند. حاشیه نویسی تصاویر دو بعدی و سه بعدی در مقیاس پیکسلی کامل از نظر انسانی غیرممکن است. Srivastava به VentureBeat گفت: با داده های مصنوعی، این مانع فنی و فیزیکی پل می شود و امکان حاشیه نویسی، تنوع و سفارشی سازی دقیق را فراهم می کند.

تشخیص ژست یکی دیگر از مکانیسم های اصلی برای تعامل با جهان های مجازی است. با این حال، ساخت مدل هایی برای ردیابی دقیق دست، با توجه به پیچیدگی دست ها و نیاز به ردیابی موقعیت سه بعدی، پیچیده است. پیچیدگی بیشتر کار نیاز به گرفتن داده هایی است که به طور دقیق تنوع کاربران را نشان می دهد، از رنگ پوست گرفته تا حضور حلقه ها، ساعت ها، آستین های پیراهن و موارد دیگر.

بهزادی می‌گوید که صنعت در حال حاضر از داده‌های مصنوعی برای آموزش سیستم‌های ردیابی دستی برای غلبه بر چنین چالش‌هایی استفاده می‌کند.

بهزادی گفت: «با استفاده از مدل‌های دست پارامتریک سه بعدی، شرکت‌ها می‌توانند مقادیر وسیعی از داده‌های برچسب‌گذاری شده سه‌بعدی را در میان جمعیت‌شناسی، آشفتگی‌ها، دیدگاه‌های دوربین و محیط‌ها ایجاد کنند.»

«سپس داده‌ها را می‌توان در محیط‌ها و موقعیت‌ها/انواع دوربین برای تنوع بی‌سابقه تولید کرد، زیرا داده‌های تولید شده هیچ نگرانی اساسی درباره حریم خصوصی ندارند. این سطح از جزئیات، مرتبه‌ای بزرگ‌تر از چیزی است که توسط انسان ارائه می‌شود و سطح بیشتری از واقع‌گرایی را قادر می‌سازد تا متاورژن را تقویت کند.»

سریواستاوا گفت که در مقایسه با روند فعلی، متاورس داده های شخصی بیشتری مانند ویژگی های صورت، حرکات بدن، سلامت، اولویت های مالی، اجتماعی و بیومتریک و بسیاری دیگر را جمع آوری می کند.

“حفاظت از این نقاط داده های شخصی باید بالاترین اولویت باشد. سازمان‌ها به سیاست‌های امنیتی و حاکمیت داده‌های مؤثر و همچنین فرآیند حاکمیت رضایت نیاز دارند. اطمینان از اخلاق در هوش مصنوعی برای افزایش اثربخشی در متاورس و در عین حال ایجاد داده‌های مسئول برای آموزش، ذخیره‌سازی و استقرار مدل‌ها در تولید بسیار مهم است.

بهزادی به‌طور مشابه گفت که فناوری‌های داده مصنوعی امکان ساخت مدل‌های فراگیرتر را به روش‌های منطبق با حریم خصوصی و اخلاقی می‌دهد. با این حال، از آنجایی که این مفهوم جدید است، پذیرش گسترده به آموزش نیاز دارد.

متاورس یک اصطلاح گسترده و در حال تکامل است، اما من فکر می‌کنم که می‌توانیم انتظار تجربه‌های جدید و عمیقاً غوطه‌وری را داشته باشیم – چه برای تعاملات اجتماعی، تصویربرداری مجدد از تجربیات مصرف‌کننده و خرید، انواع جدید رسانه‌ها یا برنامه‌هایی که هنوز تصورش را نداریم. ابتکارات جدید مانند OpenSynthetics.com گامی در مسیر درست برای کمک به ایجاد جامعه ای از محققان و شرکای صنعتی برای پیشرفت این فناوری است.

ایجاد مجموعه‌های داده آماده شبیه‌سازی برای شرکت‌هایی که می‌خواهند از تولید داده‌های مصنوعی برای ساخت و راه‌اندازی جهان‌های مجازی در متاورس استفاده کنند، چالش برانگیز است. کریس می‌گوید که دارایی‌های سه بعدی موجود برای پیاده‌سازی الگوهای آموزشی دقیق کافی نیستند.

«این مجموعه داده‌ها باید دارای اطلاعات و ویژگی‌هایی باشند که آنها را مفید می‌سازد. به عنوان مثال، وزن، اصطکاک و عوامل دیگر باید در دارایی گنجانده شود تا در تمرین مفید باشد. ما می‌توانیم انتظار افزایش مجموعه‌ای از کتابخانه‌های آماده سیم کارت را از شرکت‌ها داشته باشیم که به تسریع استفاده از موارد تولید داده‌های مصنوعی در کاربردهای متاورس، برای موارد استفاده صنعتی مانند روباتیک و دوقلوهای دیجیتال کمک می‌کند.»

عقیده GamesBeat وقتی صنعت بازی را پوشش می دهد “جایی که اشتیاق با تجارت روبرو می شود.” این یعنی چی؟ ما می خواهیم به شما بگوییم که اخبار چقدر برای شما اهمیت دارد — نه فقط به عنوان یک تصمیم گیرنده در یک استودیوی بازی، بلکه به عنوان یک طرفدار بازی. خواه مقالات ما را می خوانید، به پادکست های ما گوش می دهید یا ویدیوهای ما را تماشا می کنید، GamesBeat به شما کمک می کند تا در مورد صنعت بیاموزید و از تعامل با آن لذت ببرید. جلسات توجیهی ما را کشف کنید.