چالش های بینایی رایانه ای در خودرو های خودران : آینده هوش مصنوعی

طی سال های اخیر، شاهد پیشرفت چشمگیری در صنعت هوش مصنوعی هستیم که موجب به کارگیری گسترده بینایی رایانه ای (Computer Vision) در زندگی روزمره ما شده است. فارغ از تبلیغات های موجود در مورد وسایل نقلیه خودران، سیستم رانش خودکار (autopilot) در واقع یکی از دستاوردهای اصلی در یادگیری ماشین است که آینده خودرو سازی را شکل می دهد.

پیش بینی می شود که خودروهای خودران در طی ۱۰ سال آینده به طور کامل فراگیر شوند. Chris Gerdes، استاد مهندسی مکانیک در دانشگاه استنفورد و یکی از مدیران مرکز تحقیقات خودرو در استنفورد، در اظهارات خود با اطمینان می گوید که «ما به زودی می توانیم مهارت های بهترین رانندگان انسانی را روی خودرو ها پیاده کنیم، و شاید حتی چیزی فراتر از آن.” با این حال، با افزایش تقاضا در این صنعت، چالش های در حال ظهور برای بینایی ماشین در وسایل نقلیه خودران نیز وجود دارد. در این پست به موارد ذکر شده در ادامه خواهیم پرداخت.

فهرست مطالب

جمع آوری داده های آموزشی

خودرو های بدون راننده ی انسانی، برای رانندگی مستقل ، نیاز به تشخیص الگو دقیق و توان محاسباتی بالایی دارند. یکی از چالش های اصلی خودروهای خودران مجهز به هوش مصنوعی، گردآوری مجموعه داده های آموزشی است. در واقع، دقت یک راه حل هوش مصنوعی به اندازه داده هایی که روی آن آموزش دیده وابسته است و هر چه داده های بهتری داشته باشیم، عملکرد بهتری نیز خواهیم داشت. با توجه به آن، مجموعه داده های با کیفیت و برچسب گذاری، برای مدل بسیار حائز اهمیت است.

یکی از بهترین راه های جمع آوری داده ها که برای بینایی رایانه ای در وسایل نقلیه خودران استفاده می شود، رانندگی و عکس برداری از محیط است که می تواند از طریق رانندگی نیمه خودکار یا با استفاده از یک مدل مصنوعی مانند بازی های رایانه ای انجام شود. این مدل باید برای تشخیص بهتر، چندین بار از تصاویر تولید شده توسط دوربین استفاده کند. به خاطر داشته باشید که فرآیند آموزش بهتر ، مستلزم این است که تصاویر اشیا توسط مدل CV شما شناسایی شوند: اشیایی که ممکن است در جاده ها ظاهر شوند از جمله علائم راهنمایی رانندگی، خطوط جاده، انسان ها، ساختمان ها، خودرو های دیگر و غیره.

هر یک از این عناصر از طریق یک نوع حاشیه نویسی جداگانه برچسب گذاری می شوند، برای مثال چند خط برای تشخیص خط، حاشیه نویسی نقطه سه بعدی برای LiDAR ها و غیره.

برچسب گذاری داده ها

برچسب گذاری داده ها معمولا به صورت دستی و با زحمت زیادی انجام می شود. برای مجموعه داده ‌های بزرگی همچون خودروهای خودران، برچسب گذاری داده ها به طور ویژه به تلاش انسانی برای شناسایی عناصر بدون برچسب در تصاویر خام وابسته است. در عین حال، داده های برچسب گذاری شده باید دقیق باشند تا پروژه های یادگیری ماشین به طور موفق پیاده سازی شوند. حفظ سطوح بالای دقت برای پروژه ها به ویژه در مقیاس بزرگ چالش برانگیز است. با افزایش نیروی کار، مسئولیت حفظ ارتباطات و ایجاد یک سیستم بازخورد مؤثر به طوری که تیم های حاشیه‌نویسی یا اعضای درون تیم ها عملکرد منسجمی داشته باشند، افزایش می‌یابد. برای این منظور، توصیه می شود یک دستورالعمل حاشیه‌نویسی تنظیم شود که روند حاشیه نویسی را مشخص کرده و دستورالعمل های مختصری برای جلوگیری از اشتباهات و عدم تعادل ها ارائه دهد.

با این حال، انسجام سیستم نباید به گونه ای باشد که به تشخیص نوع داده آسیبی وارد کند. یک مدل یادگیری ماشین باید بتواند پیش بینی ها و تخمین های دقیقی را براساس آنچه در جاده ها و خیابان ها «می‌بیند» ارائه دهد، که این به ورود داده های متنوع هنگام آموزش یک مدل نیاز دارد.

راه های مختلفی وجود دارد که می توان برای برچسب گذاری داده ها استفاده کرد، از جمله داخلی (in-house) ، برون سپاری (outsourcing) یا جمع سپاری (crowdsourcing). هر کدام که در نهایت انتخاب شود، باید اطمینان حاصل کرد که یک فرآیند مدیریتی قوی برای توسعه یک خط لوله حاشیه نویسی مقیاس پذیر راه اندازی شده باشد.

تشخیص اشیاء برای وسایل نقلیه خودران

خودرو های خودران از بینایی رایانه ای برای تشخیص اشیا استفاده می کنند. تشخیص یک شی در تصویر شامل دو مرحله است: کلاسه بندی و موقعیت یابی.

کلاسه بندی تصویر با آموزش شبکه عصبی کانولوشنی (CNN) برای شناسایی و طبقه بندی اشیا انجام می گیرد، اما مشکل اینجاست که CNN راه حل دقیقی برای تصاویری با چندین شی ارائه نمی دهد، زیرا این مدل قادر به شناسایی همه اشیا نیست. اینجاست که پنجره های لغزان وارد عمل می شوند.

به این صورت که پنجره روی تصویر می لغزد (جابجا می شود)، و در هر قسمت، CNN بررسی می کند که آیا شیئی که مدل برای تشخیص آن آموزش دیده است در آن پنجره وجود دارد یا خیر. اگر اشیایی به طور قابل توجهی بزرگتر یا کوچکتر از اندازه پنجره وجود داشته باشند، مدل آن ها را شناسایی نخواهد کرد. برای انجام این کار، می توان از اندازه های مختلف پنجره استفاده کرد یا الگوریتم You Look Only Once (YOLO) را اعمال کرد. در این حالت، CNN تنها یک بار روی تصویر اجرا می شود، زیرا در این روش به شبکه ها تقسیم می شود. در پایان، YOLO را بر اساس احتمال هر پنجره حاوی یک شی، پیش بینی هایی را ارائه می کند. بنابراین، نیازی به چندین مرحله اجرا نیست.

اکنون، برای شناسایی موقعیت شی روی یک تصویر، می توان از الگوریتمی موسوم به non-max suppression (NMS) استفاده کرد. الگوریتم NMS ، بر اساس بالاترین امتیاز هدف و همپوشانی یا معیار اشتراک بر اجتماع IoU (محاسبه شده با تقسیم مساحت همپوشانی بر مساحت اجتماع)، از میان کادر های موجود، بهترین کادر محدودکننده را برای یک شی انتخاب می‌کند و مابقی کادر ها را حذف می‌کند. منظور از امتیاز هدف، احتمال وجود یک شی در کادر محدودکننده است. فرآیند انتخاب تا جایی تکرار می شود که دیگر امکان حذف کادر وجود نداشته باشد. به طور خلاصه، NMS را می توان به عنوان الگوریتم شناسایی کادر هایی با کمترین امتیاز احتمال و حذف آن ها توصیف کرد.

در ادامه برای نشان دادن نحوه عملکرد NMS یک مثال ارائه شده است. فرض کنید می خواهید مدلی طراحی کنید که خودرو و کامیون را در یک تصویر تشخیص دهد. در اینجا نحوه انتخاب کادر توسط الگوریتم NMS بیان شده است.

مراحل :

انتخاب کادری که بالاترین امتیاز هدف را دارد
مقایسه IoU کادر انتخاب شده با کادر های دیگر
حذف کادر های با IoU بیش از ۵۰%
تغییر بالاترین امتیاز هدف بعدی
تکرار مراحل ۲-۴

نتیجه نهایی در این مثال، کادر های سبز با بالاترین امتیاز هدف خواهد بود، که همان چیزی است که شما می خواهید مدل بینایی ماشین شما شناسایی کند.

ناحیه بندی معنایی و ناحیه بندی نمونه

در حالی که ناحیه بندی معنایی و ناحیه بندی نمونه ، به نظر شبیه می رسند، اما چالش های متفاوتی را در مورد وسایل نقلیه خودران مطرح می کنند. تفاوت بین این دو اغلب گیج کننده است: ناحیه بندی معنایی، هر یک از اشیا (کامیون، خودرو) یک تصویر را برچسب گذاری می کند، در حالی که ناحیه بندی نمونه ، تفاوت های بین اشیاء برچسب گذاری شده car1)، car2، (car3 را ارائه می کند.

مشکلات این دو عملکرد و سردرگمی است. که عملکرد می تواند به دلیل محدودیت های سنسور ها مشکل ساز باشد و از سوی دیگر، سردرگمی می تواند توسط تعدادی از عوامل خارجی از جمله نور محیط و سایه ها، شرایط آب و هوایی و غیره ایجاد شود.

عملکرد و سردرگمی عواملی ضروری هستند که باید در هنگام کار با مجموعه داده های بزرگتر در نظر گرفته شوند، زیرا شبکه عصبی نسبت به تعمیم نتایج حساسیت بیشتری دارد. به همین منظور، تنوع مجموعه داده و تعداد تکرارهای فرآیند، برای پروژه بینایی ماشین شما بسیار حائز اهمیت است.

بینایی چند دوربینی و تخمین عمق

ایمنی خودرو یکی از معیارهای کلیدی برای رانندگی ایمن است، که بدون تخمین عمق مناسب نمی توان از آن اطمینان حاصل کرد. فاصله بین لنز های دوربین و مکان دقیق جسم به ایجاد یک سیستم ایمن کمک می کند و گامی اساسی به منظور ساخت یک سیستم استریو ویژن است.

خطای پرسپکتیو

فاصله مناسب بین لنزهای دوربین ها، در تخمین عمق تاثیر گذار است. به طوری که می تواند باعث ایجاد خطا یا اعوجاج شود، که ما قصد داریم برای انجام محاسبات دقیق از آن اجتناب کنیم.

ارائه غیرموازی

تفاوت در دقت پیکسل می تواند بر نحوه محاسبه فاصله توسط دستگاه تأثیر بگذارد. این امر به ویژه در مورد خودرو های خودران صادق است، به این دلیل که ممکن است دوربین خودرو های خودران ، تصاویر را با دقت پیکسلی یکسان ارائه نکنند. حتی کوچک ترین تفاوت در پیکسل ها می تواند تا حدی بر محاسبه مدل تأثیر بگذارد.

نکات کلیدی

هوش مصنوعی در خودروهای خودران، اقیانوسی بی پایان مملو از اکتشافات و تغییرات تکنولوژیک در حال پیشرفت است. با این حال، رانندگی خودکار بدون مجموعه داده های پیشرفته و بینایی رایانه ای قوی غیرممکن است، که این مستلزم نیروی کار مداوم در حال گسترش و چالش های مربوطه برای برتری مدل ها می باشد.

چالش های اصلی که هنگام آموزش یک مدل بینایی ماشین برای خودرو های خودران مشاهده شده اند عبارتند از: فرآیند جمع آوری داده ها، برچسب گذاری داده ها، تشخیص اشیا، ناحیه بندی معنایی، و ناحیه بندی نمونه ، ردیابی شی برای سیستم کنترل و تجزیه و تحلیل صحنه سه بعدی، بینایی چند دوربینی و تخمین عمق. به نظر شما کدام یک بزرگترین چالش را ایجاد می کند؟

بیشتر بخوانید :

منبع Super Annotate

امتیاز دهید!

چالش های بینایی رایانه ای در خودرو های خودران : آینده هوش مصنوعی

فهرست مطالب

جمع آوری داده های آموزشی

برچسب گذاری داده ها

تشخیص اشیاء برای وسایل نقلیه خودران

ناحیه بندی معنایی و ناحیه بندی نمونه

بینایی چند دوربینی و تخمین عمق

نکات کلیدی

نوشته های مشابه

همچنین ببینید

یک نظر

دیدگاهتان را بنویسید لغو پاسخ