رباتی که با هوش مصنوعی می تواند درب خانه ها را پیدا کند

23 مارس, 2020 تازه های بینایی ماشین, تازه ها, تازه های هوش مصنوعی یک نظر

مدت زیادی از ساخت ربات های پیتزاساز می گذرد. دریافت سفارش پیتزا نیز امری بدیهی برای یک ربات عادی به حساب می آید. با این حال، تحویل پیتزا درب منزل توسط یک ربات ممکن است به این زودی امکان پذیر نشود.

انتظار طولانی برای تحویل پیتزا درب منزل، به این علت نیست که فناوری هدایت خودمختار وجود ندارد، بلکه به خاص بودن بیش از حد مجموعه داده های مورد نیاز مربوط می شود. نگاشت های دیجیتالی می توانند ربات ها را به سوی راه ورودی خانه شما هدایت کنند، اما هیچ اطلاعاتی در خصوص دستورالعمل ها و جهات دقیق از مرکز کنترل تا درب منزل وجود ندارد.

در حال حاضر ربات ها به دانش انسان جهت نگاشت دستی محیط های عملیاتی خود احتیاج دارند. اما نگاشت تمام مسیرهای ورودی در سطح کشور، عملاً غیر ممکن و طاقت فرسا است. خوشبختانه به لطف تیم مهندسان MIT، دیگر لزومی به انجام این کار، یعنی نگاشت و نقشه کشی کل مسیرهای موجود، نیست.

تیم مهندسین MIT با رهبری یکی از فارغ التحصیلان این دنشگاه به نام مایکل اورت، یک روش هدایت خودمختار جدید را به وجود آورده اند که نیازی به نگاشت قبلی محله ندارد. در واقع فناوری آن ها به ربات اجازه می دهد تا درب منزل را همانند انسان، و با استفاده از سرنخ هایی نظیر راه ورودی، حصار ها و پیاده رو، پیدا کنند. این سرنخ ها از دیدگاه ربات ها، نشانه های مفهومی برای یافتن مقصد به حساب می آیند.

اورت با همکاری جاستین میلر و مشاور خود جاناتان هاو، گزارش سفید این ابتکار را در ماه نوامبر و در کنفرانس بین المللی آسیا ارائه کرد. این تیم پژوهشی، به یافته هایی فرای تحویل مواد غذایی رسیده اند. آن ها در واقع روشی را برای حل مساله ی چالش برانگیز و قدیمی “تحویل مقصد نهایی” ( last-mile ) پیدا کرده اند که توسعه دهندگان هوش مصنوعی را مدت ها درگیر خود کرده است.

تصویر راه خانه برای آموزش الگوریتم هوش مصنوعی — یک تصویر شبیه سازی شده توسط الگوریتم تیم تحقیقاتی از مسیر ورودی خانه

شکست مسئله به تکه های قابل مدیریت

اورت نخستین بار در هنگام مطالعۀ نحوۀ تحویل بسته های شبیه سازی شده توسط هواپیماهای بدون سرنشین، با مساله ی لست مایل مواجه شد. وی مجبور بود تا پیش از اجرای هر آزمایش، محله را به مدت ده دقیقه به طور دستی نگاشت و نقشه ریزی کند و سپس مختصات دقیق را به هواپیمای بدون سرنشین تحویل دهد تا تحویل بسته را به طور موفقیت آمیز انجام دهد.

اگرچه نقشه کشی ده دقیقه ای محله برای اورت زحمت آفرین بود، اما وی به این نتیجه رسید که هواپیمای بدون سرنشین حتی نمی تواند یک محله را به تنهایی پیمایش کند، چه برسد به یک شهر. این چالش، یکی از بزرگ ترین موانعی به حساب می آید که آمازون و سایر شرکت های تجارت الکترونیکی در هنگام استفاده از ربات ها برای تحویل بسته ها با آن مواجه می شوند.

اورت در این باره گفته است: اگر نیاز به نگاشت تنها یک محله باشد، آنگاه این کار به صرفه است، اما در سطح شهری، به سرمایه زیادی جهت نگاشت دستی احتیاج است که مبلغ آن به میلیون ها دلار می رسد.

به علاوه، به هیچ وجه نمی توان تضمین کرد که نگاشت یا همان نقشه همیشه به روز است، چرا که در یک چشم انداز شهری، احتمال ساخت خانه ها، خیابان ها و مغازه های جدید وجود دارد.

اورت تصمیم گرفت تا با همکاری میلر و مشاور خود، هاو، رویکرد جدیدی را به وجود آورد. این تیم به جای ساخت یک الگوریتم انتها به انتها که مستلزم طرح ریزی ابتدایی تمام مراحل است، مسئله اصلی را به یک معماری پیمانه ای تبدیل کرد. معماری پیمانه ای به مهندسین اجازه داد تا تکه های گم شده ای که مانع یافتن درب منزل توسط ربات می شوند، را شناسایی کنند.

اورت و همکارانش از روش های متعددی جهت آموزش مفاهیم معنایی به یک ربات استفاده کرده اند. مثلاً تصویری از یک درب، به عنوان “door” و شناسایی تصویری از یک راه ورودی به عنوان “driveway” شناسایی می شود. به بیان بهتر، ربات را می توان به نحوی آموزش داد که مفهوم یک دستور نظیر “برو درب را پیدا کن” را درک کند. تیم پژوهشی از این روش برای ایجاد یک الگوریتم نقشه ریزی و مکان یابی همزمان و مفهومی استفاده کرده اند که اطلاعات جمع آوری شده به وسیلۀ سنسورهای ربات را به یک نگاشت یا همان نقشه تبدیل می کند.

این نقشه به نوبۀ خود به یک الگوریتم دیگر تحویل داده می شود که یک مسیر را به سمت مقصد محاسبه می کند. سپس مسیر محاسبه شده به سیستم کنترلگر گزارش داده می شود. در نهایت سیستم کنترلگر به ربات می گوید که به کجا حرکت کند.

با این حال، الگوریتم های به کار رفته باعث نمی شوند تا ربات بتواند همانند انسان و به طور بلادرنگ، تصمیم گیری کند. نکته ای که در این میان به آن توجه نشده، وجود الگوریتمی است که بتواند تصاویر پردازش شده توسط ربات را در یک محتوا قرار دهد و به نوبۀ خود برای سیستم برنامه ریزی اطلاع رسانی کند.

اینجاست که اورت و میلر دست به خلاقیت و ابتکار زدند. آن ها تنها به داده های مختلف جهت آموزش ربات احتیاج داشتند.

اورت در این باره گفته است: مسئله بعدی این بود که چطور باید مجموعه داده ها را تفسیر کرد تا حاوی ساختار اطلاعاتی مناسب در خصوص محیطی باشد که ربات در آن قرار دارد؟ آیا این نوع داده ها وجود دارند و آیا می توان از آن ها استفاده کرد؟

تصاویر آموزش الگوریتم هوش مصنوعی برای ایجاد نگاشت — تصاویری که برای آموزش الگوریتم هوش مصنوعی استفاده می شوند.

آموزش ظاهر راه ورودی خانه به یک ربات

ظاهراً نیازی نیست که پژوهشگران برای جمع آوری داده های مربوط به حیاط جلویی، به بخش های فرعی کشور سفر کنند. پژوهشگران با استفاده از تصاویر ماهواره ای تهیه شده به وسیله Bing Maps، می توانند بدون نیاز به ترک کارگاه های خود، داده های همسایگی محلی را به دست آورند (گوگل اجازه نداده تا از داده های Google Maps جهت انجام تحقیقات استفاده شود).

پژوهشگران، تصاویر مربوط به ۷۷ حیاط مختلف در ماساچوست، اوهایو و میشیگان را جمع آوری کردند. جمع آوری داده ها با تمرکز روی خیابان های مسکونی در سه محله حومه و یک محله شهری صورت گرفته است.

آنها همچنین می بایست در مورد ظاهر عمومی حیاط جلویی تصمیم گیری کنند. البته که تمام چمن ها سبز نیستند و همه مسیرهای ورودی با کاشی سفید پوشیده نشده اند، اما شباهت هایی در ظاهر وجود دارد.

بنابراین محققین با استفاده از ابزار تفسیر منبع باز Label Me، شکل های چند ضلعی از اشیاء مختلف نظیر مسیرهای ورودی، صندوق های پستی، حصارها و خودرو ها را تفکیک کرده و آن ها را نامگذاری کردند.

آن ها همچنین برای ایجاد نماهای نسبی نزدیک تر به زمین از دیدگاه ربات ها، بر روی اشکال ماسک اعمال کردند. طبق گفته اورت، پردازش هر خانه حدود ۱۵ دقیقه به طول می انجامد، اما اطلاعات به دست آمده از این پردازش، بسیار مفید و با ارزش هستند.

با این حال، ربات تنها با شناسایی تصاویر نمی تواند مقصد مورد نظر را به صورت بلادرنگ تشخیص دهند. پژوهشگران همچنین باید معنی اشیاء مرتبط با هدف ربات را تفسیر کنند.

تصاویر آموزش هوش مصنوعی شناسایی اشیا — شمایی از تصاویر استفاده شده برای آموزش الگوریتم جهت شناسایی اشیا

آموزش ساخت نقشه به ربات

محققین با استفاده از روشی به نام تفسیر تصویر به تصویر، یک چند ضلعی ثانویه را به بالای هر شیء قرار داده و رنگی را به آن اختصاص می دهند. مثلاً رنگ زرد به پیاده رو نسبت داده می شود. طبق گفتۀ اورت، داشتن مجموعه داده های ثانویه به ربات اجازه می دهد تا تصاویر مشاهده شده را به یک نقشه تبدیل کند.

بدین ترتیب، ربات می تواند یک شیء مثل راه ورودی را شناسایی کرده و سپس آن را در یک محتوای مناسب، به عنوان مسیر قابل پیمایش جهت یافتن درب منزل به صورت بلادرنگ در نظر بگیرد، بدون اینکه لازم باشد در ابتدا خانه را مشاهده کند. اشیاء دیگری نظیر خودرو یا چمن، به عنوان موانع کدگذاری می شوند.

اورت می گوید: موانع بسیار کمی در حیاط جلوی خانه ها وجود دارند که ممکن است سد راه ربات شوند. در عوض اشیاء بسیاری در محوطه وجود دارند که سرنخ های خوبی برای نمایش مسیر پیش رو محسوب می شوند. اگر ربات بتواند راه ورودی را از جاده تشخیص دهد، بدیهی است که برای رسیدن به درب منزل، راه ورودی را انتخاب می کند.

محققین در ادامه الگوریتمی به نام cost-to-go را به وجود آورده اند، که به ربات اجازه می دهد تا بهترین مسیر به سوی درب جلوی خانه را به صورت بلادرنگ محاسبه کند. بدین ترتیب، هر ربات مجهز به دوربین می تواند نقشه برچسبدار معنایی از یک خانه را به یک نگاشت حرارتی تبدیل کند.

این الگوریتم ابتدا نقشۀ رنگ های کدگذاری شده را به اشیاء قابل پیمایش و اشیاء غیر قابل پیمایش تبدیل می کند. اشیائی که قابل پیمایش نیستند، مثل چمن یا خودرو، با رنگ قرمز روشن برچسب گذاری می شوند. باقی اشیاء به رنگ مقیاس خاکستری تبدیل می شوند. سپس ربات با استفاده از محتوای داده های تصویری خود، محاسبۀ دیگری را جهت تخمین محتمل ترین مسیر به سمت درب منزل انجام می دهد. مسیرهای احتمالی از خاکستری تیره تا خاکستری روشن رنگ آمیزی می شوند، به طوری که خاکستری روشن، بهینگی بیشتری را نمایش می دهد.

محققین احتمال داده بودند که نقشه معنایی و نگاشت حرارتی، اطلاعات را در بین یکدیگر رد و بدل کرده و به سیستم اجازه می دهند تا مقصد اصلی را بدون نیاز به کاوش یا مختصات اولیه، پیش بینی کند. البته آن ها هیچ ایده ای نسبت به عملی شدن راه حل پیشنهادی خود نداشتند.

اورت در این باره گفته است: ابهامات زیادی در مورد چگونگی کنار هم قرار دادن موارد مختلف وجود دارد. بنابراین باید همه چیز را امتحان کرد.

شبیه سازی سرویس درب به درب

اورت، عملکرد الگوریتم پیشنهادی را در یک حیاط حومه شهری مورد آزمایش قرار داد.

شبیه سازی تصادفی خانه و حیاط به نحوی انجام گرفته که بتوان سیستم را به صورت عینی مورد بررسی قرار داد. سپس پژوهشگران دو سیستم ربات را به اجرا درآوردند؛ ربات پیشنهادی با شبیه ساز cost-to-go و ربات دیگری که فاقد این الگوریتم بوده است. در نهایت پژوهشگران به این نتیجه رسیدند که ربات مجهز به شبیه ساز cost-to-go می تواند درب جلوی منزل را ۱۸۹ درصد سریع تر از ربات دیگر پیدا کند.

موفقیت آن ها ثابت کرد که چطور ربات ها می توانند بر اساس داده های ایستا آموزش داده شوند و از محتوا برای یافتن اهداف خود استفاده کنند، حتی اگر مکان مورد نظر را از پیش مشاهده نکرده باشند.

اورت پس از ارائۀ گزارش سفید در آسیا اعلام کرد که به همراه میلر و آزمایشگاه فورد موتور، در حال فعالیت روی تغییر مقیاس الگوریتم است. این تیم هنوز باید به چالش های زیرساختاری متعددی نظیر گام ها و آموزش مدل روی داده های بیشتر رسیدگی کند و در نهایت ربات هایی را به وجود آورد که قادر به تحویل کاملاً خودمختار هستند.

با این حال طبق گفته اورت، فرصت ها بی شمار هستند. با استفاده از الگوریتم پیشنهادی، ربات می تواند به نحوی آموخته شود که هر جغرافیایی نظیر سالن های هتل یا فضای داخل رستوران را مورد پیمایش قرار دهد. در آیندۀ نزدیک، یک ربات بالاخره قادر خواهد بود تا پیتزا را پیش از سرد شدن، به درب منزل مشتری تحویل دهد.

اورت در پایان گفته است: از نظر من تصمیم گیری خودمختار یک ربات و برنامه ریزی هوشمندانه برای اجرای کارهایی که از او خواسته می شود، امری بسیار جذاب به شمار می آید. این موضوع تنها یکی از جالب ترین چیزهای ممکن است.