دقت تشخیص تصویر، چالشی نامرئی که هوش مصنوعی را به چالش می کشد

دقت تشخیص تصویر، چالشی نامرئی که هوش مصنوعی را به چالش می کشد

تصور کنید در حال گشت و گذار در میان عکس های گوشی خود هستید و با تصویری مواجه می شوید که در ابتدا نمی توانید آن را تشخیص دهید. شاید چیزی مبهم روی مبل باشد؛ می تواند یک بالش باشد یا یک کت؟ بعد از چند ثانیه پی می برید – البته! اون توپ پشمالو یه گربه ست. در حالی که برخی از عکس های شما در یک لحظه قابل درک بودند، چرا این عکس گربه بسیار مشکل تر بود؟

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) از این موضوع شگفت زده شدند که علی رغم اهمیت حیاتی درک داده های بصری در حوزه های محوری از مراقبت های بهداشتی گرفته تا حمل و نقل تا دستگاه های خانگی، مفهوم دشواری تشخیص تصویر برای انسان ها تقریبا به طور کامل نادیده گرفته شده است. یکی از محرک های اصلی پیشرفت در هوش مصنوعی مبتنی بر یادگیری عمیق، مجموعه داده ها بوده است، با این حال ما اطلاعات کمی در مورد چگونگی پیشرفت داده ها در یادگیری عمیق در مقیاس بزرگ و فراتر از آن داریم.

در کاربردهای دنیای واقعی که نیازمند درک داده های بصری هستند، انسان ها عملکرد بهتری نسبت به مدل های تشخیص اشیا دارند، با وجود این واقعیت که مدل ها در مجموعه داده های فعلی عملکرد خوبی دارند، از جمله آن هایی که به صراحت برای به چالش کشیدن ماشین ها با تصاویر بی طرفانه یا تغییرات توزیع طراحی شده اند. این مشکل تا حدی ادامه دارد، زیرا ما هیچ راهنمایی در مورد سختی مطلق یک تصویر یا مجموعه داده نداریم. بدون کنترل سختی تصاویر مورد استفاده برای ارزیابی، ارزیابی عینی پیشرفت به سمت عملکرد در سطح انسان، پوشش دادن گستره توانایی های انسان، و افزایش چالش ناشی از یک مجموعه داده دشوار است.

برای پر کردن این شکاف دانش، دیوید مایو، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر و وابسته به CSAIL، به دنیای عمیق مجموعه داده های تصویری پرداخت و بررسی کرد که چرا تشخیص برخی تصاویر برای انسان ها و ماشین ها دشوارتر از دیگران است. شاید مدارهای عصبی پیچیده یا مکانیزم های منحصر به فردی در مدل های فعلی ما وجود داشته باشند که تنها زمانی قابل مشاهده باشند که با محرک های بصری چالش برانگیز آزمایش شوند. این اکتشاف برای درک و افزایش مدل های بینایی ماشین بسیار مهم است.”

این امر منجر به توسعه یک معیار جدید به نام “حداقل زمان مشاهده” (MVT) شد، که دشواری تشخیص یک تصویر را براساس مدت زمانی که یک فرد باید قبل از تشخیص صحیح آن را ببیند، تعیین می کند. این تیم با استفاده از زیرمجموعه ای از ImageNet، مجموعه داده محبوب در یادگیری ماشین و ObjectNet، مجموعه داده ای که برای آزمایش قدرت تشخیص اشیا طراحی شده بود، تصاویر را برای مدت زمان های مختلف از ۱۷ میلی ثانیه تا ۱۰ ثانیه به شرکت کنندگان نشان داد و از آن ها خواست تا از مجموعه ۵۰ گزینه، شی صحیح را انتخاب کنند. پس از بیش از ۲۰۰ هزار آزمایش ارائه تصویر، این تیم متوجه شد که مجموعه های آزمایشی موجود، از جمله ObjectNet، به سمت تصاویر ساده تر و کوتاه تر MVT (Minimum Viewing Time) منحرف شده اند و اکثر عملکرد بنچمارک از تصاویری به دست می آید که برای انسان آسان هستند.

این پروژه روندهای جالبی را در عملکرد مدل – به ویژه در رابطه با مقیاس بندی – شناسایی کرد. مدل های بزرگ تر بهبود قابل توجهی در تصاویر ساده تر نشان دادند اما در تصاویر چالش برانگیزتر پیشرفت کمتری داشتند. مدل های CLIP، که هم زبان و هم بینش را در بر می گیرند، زمانی برجسته شدند که در جهت شناخت بیشتر شبیه انسان حرکت می کردند.

” به طور سنتی، مجموعه داده های تشخیص شی به سمت تصاویر کم تر پیچیده متمایل شده اند، عملی که منجر به تورم در معیارهای عملکرد مدل شده است، که واقعا بازتاب دهنده قدرت یک مدل یا توانایی آن برای مقابله با وظایف بصری پیچیده نیست. مایو می گوید: ” تحقیقات ما نشان می دهد که تصاویر سخت تر چالش حادتری را ایجاد می کنند، که باعث تغییر توزیع می شود که اغلب در ارزیابی های استاندارد در نظر گرفته نمی شود.” ما مجموعه تصاویر برچسب گذاری شده با درجه دشواری را به همراه ابزارهایی برای محاسبه خودکار MVT منتشر کردیم، که MVT را قادر می سازد تا به معیارهای موجود اضافه شود و به کاربردهای مختلف گسترش یابد. این موارد شامل اندازه گیری درجه دشواری مجموعه تست قبل از به کارگیری سیستم های دنیای واقعی، کشف همبستگی های عصبی دشواری تصویر، و پیشرفت تکنیک های تشخیص شی برای از بین بردن شکاف بین معیار و عملکرد دنیای واقعی است.”

” یکی از بزرگ ترین برداشت های من این است که ما اکنون بعد دیگری برای ارزیابی مدل ها داریم. ما مدل هایی می خواهیم که قادر به تشخیص هر تصویری باشند حتی اگر – شاید – تشخیص آن برای یک انسان سخت باشد. ما اولین کسی هستیم که معنی این کار را کمی می کنیم. جسی کامینگز، دانشجوی فارغ التحصیل MIT در مهندسی برق و علوم کامپیوتر و نویسنده هم کار مایو در این مقاله می گوید: ” نتایج ما نشان می دهد که نه تنها این مورد در مورد وضعیت امروز هنر صدق نمی کند، بلکه روش های ارزیابی فعلی ما توانایی تشخیص زمان وقوع آن را ندارند؛ زیرا مجموعه داده های استاندارد به سمت تصاویر آسان منحرف شده اند.”

گذر از ObjectNet به MVT

چند سال پیش، تیم پشت این پروژه چالش مهمی را در زمینه یادگیری ماشین شناسایی کرد: مدل ها با تصاویر خارج از توزیع یا تصاویری که به خوبی در داده های آموزشی نمایش داده نمی شدند، دست و پنجه نرم می کردند. وارد ObjectNet شوید، مجموعه داده ای متشکل از تصاویر جمع آوری شده از تنظیمات واقعی. این مجموعه داده با از بین بردن همبستگی های ساختگی موجود در سایر بنچمارک ها – برای مثال بین یک شی و پس زمینه آن – به روشن کردن شکاف عملکرد بین مدل های یادگیری ماشین و توانایی های تشخیص انسان کمک کرد. ObjectNet شکاف بین عملکرد مدل های بینایی ماشین بر روی مجموعه داده ها و در کاربردهای دنیای واقعی را روشن کرد و استفاده از آن را برای بسیاری از محققان و توسعه دهندگان تشویق کرد – که متعاقبا عملکرد مدل را بهبود بخشید.

به سرعت به زمان حال نزدیک می شویم، و تیم تحقیقات خود را با MVT یک گام جلوتر برده است. برخلاف روش های سنتی که بر عملکرد مطلق تمرکز دارند، این روش جدید چگونگی عملکرد مدل ها را با مقایسه پاسخ های آن ها به ساده ترین و سخت ترین تصاویر ارزیابی می کند. این مطالعه بیشتر به بررسی چگونگی توضیح و آزمایش دشواری تصویر برای شباهت با پردازش بصری انسان پرداخت. مایو می گوید: ” با استفاده از معیارهایی مانند امتیاز ج (C-Score) عمق پیش بینی و استحکام خصمانه، تیم متوجه شد که تصاویر سخت تر به طور متفاوتی توسط شبکه ها پردازش می شوند.”

برای مثال، در حوزه بهداشت و درمان، اهمیت درک پیچیدگی بصری بیشتر می شود. توانایی مدل های هوش مصنوعی برای تفسیر تصاویر پزشکی، مانند اشعه ایکس، منوط به تنوع و دشواری توزیع تصاویر است. محققان از تحلیل دقیق توزیع دشواری متناسب با حرفه ای ها حمایت می کنند و اطمینان حاصل می کنند که سیستم های هوش مصنوعی براساس استانداردهای تخصصی ارزیابی می شوند، نه تفسیرهای غیر حرفه ای.

مایو و کامینگز در حال حاضر به مبانی عصبی تشخیص بصری نیز نگاه می کنند و بررسی می کنند که آیا مغز هنگام پردازش تصاویر آسان در مقابل چالش برانگیز، فعالیت متفاوتی از خود نشان می دهد یا خیر. هدف از این مطالعه کشف این موضوع است که آیا تصاویر پیچیده نواحی اضافی مغز را که معمولا با پردازش بصری در ارتباط نیستند، به کار می گیرند یا خیر و امیدواریم که به رمزگشایی دقیق و موثر مغز ما از دنیای بصری کمک کند.

به سوی عملکرد در سطح انسانی

با نگاهی به آینده، محققان روی کشف راه هایی برای افزایش قابلیت های پیش بینی هوش مصنوعی در رابطه با مشکل تصویر تمرکز کرده اند. همچنین این تیم در حال کار بر روی شناسایی همبستگی ها با دشواری “مشاهده – زمان” به منظور تولید نسخه های سخت تر یا آسان تر تصاویر است.

علی رغم گام های مهم این مطالعه، محققان محدودیت ها را به ویژه از نظر جداسازی تشخیص شی از وظایف جستجوی بصری تایید می کنند. روش فعلی بر تشخیص اشیا تمرکز دارد و پیچیدگی های ایجاد شده توسط تصاویر درهم ریخته را از بین می برد.

مایو می گوید: ” این رویکرد جامع به چالش طولانی مدت ارزیابی عینی پیشرفت به سمت عملکرد در سطح انسان در تشخیص اشیا می پردازد و راه های جدیدی را برای درک و پیشرفت این حوزه باز می کند.”

این کار با پتانسیل تطبیق معیار حداقل دشواری زمان مشاهده برای انواع کارهای بصری، راه را برای عملکرد قوی تر و شبیه به انسان در تشخیص اشیا هموار می کند و تضمین می کند که مدل ها واقعا در معرض آزمایش قرار می گیرند و برای پیچیدگی های درک بصری دنیای واقعی آماده هستند.”

آلن یویل پروفسور برجسته علوم شناختی بلومبرگ که در این پژوهش مشارکتی نداشته است می‌گوید: این یک مطالعه جالب در مورد این است که چگونه می توان از ادراک انسان برای شناسایی نقاط ضعف در روش هایی که مدل های بینایی هوش مصنوعی معمولا معیار قرار می گیرند استفاده کرد که عملکرد هوش مصنوعی را با تمرکز بر روی تصاویر آسان ارزیابی می کند؛ همچنین این کار به توسعه معیارهای واقع گرایانه تر کمک می کند که نه تنها منجر به بهبود هوش مصنوعی می شود، بلکه مقایسه های عادلانه تری بین هوش مصنوعی و ادراک انسان ایجاد می کند.”

سیمون کورنبلیت، یکی از اعضای کادر فنی آنتروپیک که در این پژوهش مشارکتی نداشته است، می گوید: امروزه ادعا می شود که سیستم های بینایی کامپیوتری عملکرد بهتری نسبت به انسان ها دارند و در برخی از بنچمارک ها، این موضوع صحت دارد؛ با این حال، بسیاری از مشکلات موجود در این بنچمارک ها ناشی از مبهم بودن اطلاعات موجود در تصاویر است؛ به طوری که افراد عادی اطلاعات کافی برای طبقه بندی نژاده ای مختلف سگ ها ندارند. این کار در عوض روی تصاویری تمرکز می کند که افراد تنها در صورت داشتن زمان کافی می توانند به آن ها دست پیدا کنند. این تصاویر عموما برای سیستم های بینایی کامپیوتری بسیار سخت تر هستند، اما بهترین سیستم ها تنها کمی بدتر از انسان هستند.”

منبع : MIT NEWS

همچنین ببینید

هوش مصنوعی و امنیت : ایجاد تعادل چگونه ممکن است؟

با رشد اکوسیستم دیجیتال و AI در آمریکای لاتین، کسب‌وکارها و دولت‌ها در منطقه به …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *