آیا جلسه ای از نشست Future of Work را از دست داده اید؟ برای پخش جریانی به کتابخانه بر اساس تقاضای Future of Work Summit بروید.
بینایی کامپیوتر، فناوری که از الگوریتمها برای «دیدن» و ارزیابی اشیا، افراد و رویدادها در دنیای واقعی استفاده میکند، بازاری است که به سرعت در حال گسترش در بخش گستردهتر هوش مصنوعی است. این به این دلیل است که کاربردها عملاً بی حد و حصر هستند، از نظارت بر محصولات کشاورزی تا تشخیص پزشکی و آزمایش وسایل نقلیه بدون راننده. Allied Market Research پیش بینی می کند که فروشندگان محصولات بینایی کامپیوتر تا سال 2028 مجموعاً 144.46 میلیارد دلار ارزش داشته باشند.
دگرگونی دیجیتال در شرکت، که توسط همهگیری تحریک شده است، رشد را بیشتر تسریع کرده است. به عنوان مثال، Zebra Medical Vision، یک استارت آپ بینایی کامپیوتری با تمرکز بر مراقبت های بهداشتی، در آگوست 2021 در معامله ای به ارزش 200 میلیون دلار خریداری شد. در همین حال، Landing AI دهها میلیون دلار را برای داشبوردهای بازرسی بصری خود تضمین کرده است که مهندسان را قادر میسازد تا بینایی رایانه را آموزش دهند، آزمایش کنند و روی دستگاههایی مانند لپتاپها مستقر کنند.
دسته دیگری از استارتآپهای رو به رشد – یکی که بر تجزیه و تحلیل فیلمهای دوربین و حسگر متمرکز است – سرمایهگذاری قابل توجهی را از حامیان سازمانی جذب میکند. Ambient یکی از جدیدترین محصولات است – نرم افزار بینایی کامپیوتری آن تلاش می کند تا موقعیت های بالقوه خطرناک را شناسایی کند تا به ذینفعان هشدار دهد. شرکت مستقر در پالو آلتو در کالیفرنیا که در سال 2017 راه اندازی شد، با 52 میلیون دلار سرمایه خطرپذیر به رهبری آندریسن هوروویتز با مشارکت Y Combinator، استنفورد و دیگران از مخفی کاری خارج می شود.
بینایی کامپیوتر برای امنیت
Ambient توسط مدیر عامل شرکت Shikhar Shrestha، که قبلاً در Google برای کمک به تیم Project Tango بود، تأسیس شد. Vikesh Khanna، مدیر ارشد فناوری شرکت و دیگر بنیانگذاران، در Dropbox در ساخت سیستم های تجزیه و تحلیل داده کار می کرد.
محیط از تحقیقاتی که Shrestha و Khanna در زمان حضور در استنفورد انجام دادند رشد کرد. این پلتفرم با استفاده از چیزی که Shrestha آن را “گراف زمینه” می نامد، به دوربین های مدار بسته و سیستم های حسگر متصل می شود و عوامل خطر را هنگام تماشای ضبط های لحظه ای یا تاریخی ارزیابی می کند – یعنی زمینه های مختلف مکان (مانند نوع فضا و زمان روز). رفتارها (حرکت یک شی و تعاملات شی) و اشیاء (افراد، وسایل نقلیه، حیوانات و غیره).
من در ژانویه 2017 Ambientin را در کنار خانا تأسیس کردم. با این حال، الهام بخش Ambient سالها قبل بود.» شرستا از طریق ایمیل به VentureBeat گفت. “در 12 سالگی، در مکانی که توسط دوربین امنیتی نظارت می شد، با اسلحه مورد سرقت قرار گرفتم. در آن زمان انتظار داشتم یک افسر گشت وارد عمل شود که این اتفاق هرگز نیفتاد. از آن تجربه، متوجه شدم که علیرغم فراگیر بودن دوربین های امنیتی در جهان ما، تعداد کمی از موارد ضبط شده منجر به پاسخگویی در زمان واقعی می شود. این من را مجذوب فناوری امنیتی، سرهم بندی، طراحی و ساختن سیستم های هشدار و نظارت کرد.»

بالا: داشبورد مانیتورینگ محیط.
اعتبار تصویر: محیط
Shrestha ادعا میکند که الگوریتمهای Ambient میتوانند تهدیدهایی مانند رخنههای محیطی و “تصفیه پشتی” را بدون تشخیص چهره یا نمایهسازی شناسایی کنند، و همچنین رفتارها و تهدیدات جدید را بهطور خودکار در طول زمان یاد بگیرند. این پلتفرم محتوای ویدیوها را از متن درباره آنچه در حال انجام است تا اقدامات فردی، مانند گفتن «این یک خیابان شلوغ است» یا «مردی در حال راه رفتن است» زیرنویس میکند.
چهار جزء کلیدی پلتفرم Ambient پردازش داده های ویدئویی است. تشخیص اشیا، رویدادها و زمینه؛ ارزیابی امضای تهدید؛ شرستا گفت و اولویتبندی برای مداخله انسانی. «Ambient صدها امضای تهدید را ارائه میکند که مشتریان میتوانند خارج از جعبه آن را مستقر کنند و ما به سرعت امضاهای تهدید جدیدی را بر اساس درخواستهای مشتری از میدان اضافه میکنیم. امروز، ما بیش از 100 امضای تهدید را تحویل می دهیم [and our funding] به ما این امکان را میدهد که بر اساس آن کتابخانه بنیادی بسازیم تا به سرعت تعداد امضاهای تهدید را که در سال آینده ارائه میدهیم دو برابر کنیم.»
Ambient می گوید که بیش از 20000 ساعت ویدیو از مشتریان خود پردازش کرده است که به ادعای او شامل 5 برند از 10 برند برتر فناوری ایالات متحده بر اساس ارزش بازار و همچنین “تعدادی” از شرکت های Fortune 500 است.
شرستا افزود: «مشتریان ما در حال حاضر طیف گستردهای از بخشهای صنعتی از جمله آموزش، امور مالی، تولید، رسانه و سرگرمی، خردهفروشی، امنیت املاک و مستغلات و مسکونی و فناوری را در بر میگیرند.» ما قصد داریم نفوذ خود را در بازار سازمانی به طیف گستردهای از صنایع و انواع ساختمانها، از پردیسهای شرکتی گرفته تا مراکز داده، مدارس و موزهها گسترش دهیم.»
چالش های بالقوه
مانند اکثر سیستمهای بینایی کامپیوتری، Ambient بر روی ترکیبی از مجموعه دادههای منبع باز و تصاویر و ویدئوهای تولید شده داخلی که نمونههایی از افراد، مکانها و چیزها را نشان میدهند، آموزش دیدهاند. این شرکت ادعا میکند که اقداماتی را انجام میدهد تا اطمینان حاصل شود که مجموعه دادهها به اندازه کافی متنوع هستند، اما تاریخ نشان داده است که تعصب میتواند حتی در بهترین مدلهای طراحیشده نیز رخنه کند.
به عنوان مثال، تحقیقات قبلی نشان داده است که مجموعه دادههای تصویری بزرگ و در دسترس عموم، ایالات متحده و اروپا محور هستند و سوگیریهای انسانی در مورد نژاد، قومیت، جنسیت، وزن و موارد دیگر را رمزگذاری میکنند. نقصها میتوانند از منابع دیگر ناشی شوند، مانند تفاوت در مسیرهای خورشید بین نیمکره شمالی و جنوبی و تغییرات در مناظر پسزمینه. مطالعات نشان میدهد که مدلهای دوربین خاص میتوانند باعث شوند که الگوریتمی در طبقهبندی اشیایی که برای تشخیص آنها آموزش دیده است، کارایی کمتری داشته باشد. حتی انتخابهای طراحی معماری در الگوریتمها میتواند به طبقهبندیهای جانبدارانه کمک کند.
این سوگیری ها می تواند منجر به آسیب در دنیای واقعی شود. مشخص شد که پلت فرم تشخیص چهره و تشخیص سلاح ST Technologies کودکان سیاه پوست را به اشتباه شناسایی می کند و اغلب دسته جاروها را با اسلحه اشتباه می گیرد. در همین حال، فناوری ضد سرقت فروشگاهی مبتنی بر هوش مصنوعی و دوربین Walmart که توسط Everseen ارائه شده است، به دلیل نرخ تشخیص ضعیف گزارش شده آن مورد بررسی قرار گرفت. نرم افزار تشخیص چهره مورد استفاده پلیس دیترویت یک مرد سیاهپوست را به عنوان یک دزد مغازه شناسایی کرد. و Google’s Cloud Vision API زمانی دماسنجهایی را که افراد سیاهپوست نگه میداشتند بهعنوان «اسلحه» نامگذاری میکرد، در حالی که دماسنجهایی را که افراد با پوست روشن نگه میداشتند بهعنوان «دستگاههای الکترونیکی» برچسبگذاری میکردند.
جنیفر لینچ، مدیر دعوای نظارتی در بنیاد مرز الکترونیکی، در مصاحبه اخیر با شرکت Fast در مورد فناوریهای هوش مصنوعی تشخیص اسلحه گفت: «این فناوری، که شامل تشخیص اشیا و رفتار است، بسیار دقیق نیست.
Ambient میگوید که دادههایی که برای آموزش الگوریتم پردازش ویدیوی خود استفاده میکند، قبل از وارد شدن به سیستم، با استفاده از خدمات جمعسپاری حاشیهنویسی میشوند. اما برچسبها، حاشیهنویسیهایی که بسیاری از مدلهای بینایی کامپیوتری از آنها روابط در دادهها را یاد میگیرند، نشانههای عدم تعادل دادهها را نیز دارند. حاشیه نویسان سوگیری ها و کاستی های خود را به جدول می آورند، که می تواند به حاشیه نویسی ناقص تبدیل شود. به عنوان مثال، برخی برچسبگذاران مجموعه دادههای 80 میلیون عکس کوچک MIT و نیویورک دارای حاشیهنویسیهای نژادپرستانه، جنسیتی و غیره توهینآمیز بودند، از جمله نزدیک به 2000 تصویر با کلمه N و برچسبهایی مانند «مظنون به تجاوز جنسی» و «آزار کودک».
در سال 2019، سیمی در مورد حساسیت پلتفرم هایی مانند Amazon Mechanical Turk – که در آن بسیاری از محققان و شرکت ها حاشیه نویس ها را استخدام می کنند – به ربات های خودکار گزارش شده است. حتی زمانی که جمعیت کارگری هستند بهطور قابلتأیید انسانی، انگیزه آنها دستمزد به جای بهره است، که میتواند منجر به دادههای با کیفیت پایین شود – بهویژه زمانی که با آنها بد رفتار میشود و نرخی کمتر از بازار پرداخت میشود. حاشیه نویس ها از آنجایی که انسان هستند، به طور طبیعی اشتباهاتی نیز مرتکب می شوند – گاهی اوقات اشتباهات بزرگ. در تجزیه و تحلیل MIT از معیارهای محبوب از جمله ImageNet، محققان تصاویری با برچسب اشتباه پیدا کردند، مانند اشتباه گرفتن یک نژاد سگ با نژاد دیگر.
Shrestha ادعا می کند که فناوری Ambient با اتخاذ رویکرد “آموزش سیستمی” در بینایی کامپیوتر، سوگیری را به حداقل می رساند. او میگوید «بلوکهای سطح سیستم» کنترل میکنند که یک مدل بینایی رایانهای روی کدام وظیفه متمرکز است و مدل را برای آن کار محدود بهینه میکند، به طوری که یک مدل تصمیم نهایی را نمیگیرد.
“[W]مشکل را به بلوکهای سطح سیستمی تقسیم میکنیم که استنتاجهای بسیار دقیقی دارند. مثلا، [one] بلوک تعامل انسانی می تواند یکی از این 10 تعامل را تشخیص دهد، [while] این بلوک عنصر صحنه می تواند یکی از این 20 عنصر صحنه را شناسایی کند. این معماری به این معنی است که ما از برچسبگذاران داده نمیخواهیم بر اساس مفروضات بدون ساختار برچسبگذاری کنند. در معماری ما، مدلها دارای خروجیهای ساختاری مرتبط با وظایف خاص هستند. مثالها عبارتند از: تشخیص یک شخص، یک ماشین، رنگ پیراهن، تعامل بین افراد و یک ماشین. این خروجیهای ساختیافته برچسبزن را بهطور مناسب محدود میکنند تا نتوانند با برچسب دلخواه پاسخ دهند و مدل را سوگیری کنند.
حفظ حریم خصوصی داده ها و نظارت
با پیشبینی اینکه برخی از مشتریان ممکن است از اعطای دسترسی فروشندهای مانند Ambient به فیلمهای دوربین مدار بسته محتاط باشند، این شرکت تلاش میکند تا نگرانیها را در قرارداد شرایط خدمات خود برطرف کند. Ambient این حق را برای خود محفوظ می دارد که برای بهبود، آزمایش و بازاریابی خدمات خود فقط از «داده های جمع آوری شده، شناسایی نشده» از مشتریان استفاده کند و ادعا می کند که از هیچ داده حساس مشتری که برای این اهداف در پلتفرم خود آپلود شده است استفاده نمی کند.
“محصول ما از روز اول برای به حداقل رساندن داده ها طراحی شده است. اساساً، این بدان معناست که ما اطلاعات شناسایی شخصی را از تلاشهای جمعآوری دادههای خود حذف میکنیم.» «دادههای ویدیویی خام توسط الگوریتمهای بینایی رایانه محیطی پردازش نمیشوند. در عوض، الگوریتمها فقط ابردادههای فیلم خام را پردازش میکنند [and not] ویژگی های چهره، ویژگی های جنسیتی، یا شناسه های نژاد. این با محدودیت های قابل توجهی همراه است. به عنوان مثال، ما تجزیه و تحلیل تشخیص چهره را به عنوان بخشی از راه حل خود ارائه نمی دهیم زیرا ارائه تشخیص چهره بدون جمع آوری و پردازش غیرممکن است.
Ambient در شرایط خدمات خود مشخص نمی کند که تحت چه شرایطی داده های مشتری را منتشر می کند، مانند زمانی که توسط مجری قانون درخواست شود یا احضاریه ارسال شود. این شرکت همچنین نمیگوید که چه مدت دادهها را حفظ میکند – فقط در صورت بسته شدن حساب مشتری، دادهها «ممکن است بهطور غیرقابل برگشتی حذف شوند».
شرستا گفت: “ما متعهد هستیم که با مشتریان خود کار کنیم تا اطمینان حاصل کنیم که استفاده آنها از این محصول با الزامات قوانین مربوط به حریم خصوصی و حفاظت از داده ها مطابقت دارد.” ما کنترلهای فنی قوی در محصول داریم که هم کاری را که محصول میتواند انجام دهد و هم اینکه چه کسی به محصول دسترسی دارد را محدود میکند. [and] ما متعهد هستیم که محدودیتهای فنی مناسب را به منظور جلوگیری از آسیبهای احتمالی اعمال کنیم.»
این فقط کاربران نیستند که ممکن است نگران فناوری مبتنی بر هوش مصنوعی Ambient باشند. طرفداران حریم خصوصی نگرانند که سیستم هایی مانند آن – از جمله از Umbo، Deep Sentinel و سایر فروشندگان – ممکن است برای اهداف بشردوستانه کمتر مورد استفاده قرار گیرند و به طور بالقوه سطوح بیشتری از نظارت را عادی کنند.
در ایالات متحده، هر ایالت قوانین نظارتی خاص خود را دارد، اما اکثر آنها اختیارات گسترده ای را به کارفرمایان می دهند تا زمانی که تجهیزاتی که برای ردیابی کارمندان استفاده می کنند به صورت مکتوب قابل مشاهده یا افشا باشد. همچنین هیچ قانونی فدرال وجود ندارد که شرکت ها را به صراحت از کارمندان فیلمبرداری در طول روز کاری منع کند.
مارک روتنبرگ، رئیس مرکز اطلاعات حریم خصوصی الکترونیکی در مصاحبه ای به Phys.org گفت: “برخی از این تکنیک ها می توانند مفید باشند، اما زمانی که سیستم ها برای شناسایی هویت و تصمیم گیری بر اساس داده های شخصی طراحی می شوند، مشکلات حریم خصوصی زیادی وجود دارد.” “این جایی است که مسائل مربوط به نمایه سازی مخفی، سوگیری و دقت وارد تصویر می شود.”
VentureBeat
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری تحول آفرین به دست آورند و معاملات انجام دهند. سایت ما اطلاعات ضروری در مورد فن آوری ها و استراتژی های داده را ارائه می دهد تا شما را در حین رهبری سازمان خود راهنمایی کند. ما از شما دعوت می کنیم که عضو انجمن ما شوید، برای دسترسی به:
- اطلاعات به روز در مورد موضوعات مورد علاقه شما
- خبرنامه های ما
- محتویات رهبر فکر و دسترسی با تخفیف به رویدادهای ارزشمند ما، مانند تبدیل 2021: بیشتر بدانید
- ویژگی های شبکه و موارد دیگر
عضو شوید