اگر سریال Squid Game را دیده باشید، در بازی چراغ سبز و قرمز رباتی وجود دارد که از طریق هوش مصنوعی افرادی که در زمان مشخص حرکت می کنند را می کشد. باشگاه فوتبال PSG نیز از یک هوش مصنوعی برای تحت نظر گرفتن دویدن لیونل مسی استفاده می کند. آمازون هم در فروشگاه های جدید خود، از طریق هوش مصنوعی تشخیص می دهد که شما چه کالا هایی را برای خرید برداشته اید.
اما بین تمام ای مواردی که گفته شد، چه وجه اشتراکی وجود دارد؟
تمام این هوش مصنوعی هایی که در مثال های بالا گفته شد، از فناوری بینایی کامپیوتر یا Computer Vision استفاده می کنند. حوزه بینایی کامپیوتر یکی از فعال ترین و پر مخاطب ترین شاخه های هوش مصنوعی است. کاربرد های این فناوری بیشمار است و روزانه صنایع بیشتری از آن بهره می برند.
در این مقاله می خواهیم مهم ترین تکنیک های بینایی کامپیوتر را بررسی کنیم و در مورد کاربرد هر یک از آن ها صحبت کنیم.
فهرست مطالب
تشخیص اشیا و ناحیه بندی خودکار اشیا
پراستفاده ترین تکنیک بینایی کامپیوتر، تشخیص خودکار اشیا است. این تکنیک در عین حال که بسیار پر استفاده است، به نسبت از دیگر شاخه های بینایی کامپیوتر ساده تر است و می توانیم به راحتی از آن استفاده کنیم. تشخیص اشیا کاربرد های بیشماری از نظارت خودکار بر ترافیک در حوزه نظارت تصویری گرفته تا تشخیص تومور های سرطانی در شاخه پزشکی را پوشش می دهد.
ما می توانیم مدل هایی را آموزش دهیم تا به راحتی اشیا و افراد موجود در ویدیو ها را شناسایی کنند.
هدف مدل تشخیص اشیا، تشخیص دادن اجسام موجود در تصویر و شناسایی نوع آن هاست. این مدل پس از این که اشیا را تشخیص داد، دور آن یک مستطیل (کادر محدود کننده) رسم می کند. اما در بعضی موارد، این تکنیک پاسخگوی نیاز ما نیست و ما به روش ناحیه بندی (Segmentation) برای تشخیص دقیق تر اجسام نیاز داریم.
ناحیه بندی خودکار تصویر باعث می شود محدوده هر جسم در تصویر نسبت به روش رسم مستطیل دور جسم، دقیق تر مشخص شود.
برای انجام پروژه های تشخیص اتوماتیک اشیا معمولا از YOLOv5 استفاده می شود و برای ناحیه بندی تصویر Detectron 2 قابل استفاده است.
ردیابی اشیا
در مفهوم تشخیص خودکار اشیا، ما فقط محل اشیا موجود را در یک تصویر شناسایی می کنیم. اما گاهی نیاز داریم اشیا یا افراد تشخیص داده شده را در دنباله های تصویری یا ویدیو ها دنبال کنیم. به این تکنیک، ردیابی خودکار اشیا یا Automatic Object Tracking گفته می شود.
به عنوان مثال، در ویدیو زیر، ما برای هر شی یک شناسه تعریف می کنیم و آن را در طول ویدیو دنبال می کنیم.
این پروسه از طریق مدل های استخراج ویژگی انجام می شود که برای تشخیص تفاوت ها اجسام در یک کلاس (مثلا ۲ انسان) بسیار دقیق و حساس هستند. این تکنیک بیشتر در سیستم های نظارت ویدیویی و حوزه ورزش های گروهی استفاده می شود.
یکی از مهم ترین ابزار هایی که برای تعقیب و ردیابی افراد استفاده می شود DeepSort است که به طور رایگان و اوپن سورس در اختیار مخاطبان قرار گرفته است.
تشخیص و کلاسه بندی حرکات با بینایی کامپیوتر
به طور کلی بینایی کامپیوتر به سیستم اجازه می دهد تا اتفاقات رخ داده در عکس یا ویدیو را بهتر متوجه شود. امروزه ما به راحتی می توانیم مدل هایی را توسعه دهیم که حرکات انجام شده توسط افراد را تشخیص داده و کلاسه بندی کنند.
تشخیص حرکات انسان در حوزه های بسیاری کاربرد دارد. اما تا کنون بسیار کم به طور عملی مورد استفاده قرار گرفته است. امروزه این فناوری بیشتر برای ارتباط انسان و کامپیوتر، سیستم های نظارتی و یا تحلیل رفتار در ورزش استفاده می شود.
تشخیص صحنه
تشخیص صحنه روشی برای بدست آوردن یک حجم ۳ بعدی از اجسام (اشیا، افراد، حیوان ها، مناظر و…) از تصاویر ۲ بعدی جسم است. این تکنیک یک مدل ۳ بعدی مشابه جسم اصلی تولید می کند که از طریق آن می توان ابعاد و اندازه های مختلف و انحنا های جسم را تشخیص داد.
کاربرد های این تکنیک نیز بی شمار است. در ورزش، با ساختن مدل های سه بعدی از بدن ورزشکاران می توان مهندسی بیومکانیک آن ها را تحلیل کرد. در معماری می توان مدل های ۳ بعدی یک خانه را تنها از روی چند تصویر ایجاد کرد.
بازسازی ۳ بعدی علاوه بر موارد یاد شده، برای ابر پروژه متاورس نیز یک عنصر حیاتی است. طراحی تمام ساختمان ها، آواتار ها، مناظر را می توان از این طریق وارد دنیای سه بعدی متاورس کرد.
تشخیص حالت بدن انسان با بینایی کامپیوتر
یکی از جدید ترین و به روز ترین شاخه های بینایی کامپیوتر، تشخیص حالت بدن انسان است. این تکنیک متشکل از روش هایی برای تشخیص بخش های مختلف بدن انسان است. مدل، ابتدا فرد را در تصویر تشخیص می دهد، سپس مدل بدن فرد را استخراج می کند. خروجی تشخیص حالت بدن انسان، دنباله ای از نقاط کلیدی است که نشان دهنده بخش های مختلف بدن هستند.
کاربرد های تکنیک تشخیص حالت بدن شامل تحلیل رفتار در ورزش و جلوگیری از وقوع حوادث در محل های صنعتی و ساخت و ساز است.
در حوزه ورزش می توان اطلاعات بسیار زیادی را از تحلیل حالت های بدن ورزشکاران بدست آورد تا بتوان حرکات آن ها را پیش بینی کرد و توانایی های فیزیکی آن ها را تخمین زد.
در حوزه ساخت و ساز و صنعت نیز می توان از طریق فناوری تشخیص حالت بدن، حالت های ریسکی و خطرناک کارکنان مثلا بلند کردن اجسام سنگین را تشخیص داد.
از طریق همین فناوری می توان اجزا دست و صورت را نیز تشخیص داد. با استفاده از این قابلیت می توان از روی تشخیص نقاط کلیدی چهره احساسات فرد را تشخیص داد یا زبان اشاره را ترجمه کرد.
با وجود این که تا کنون چندین اپلیکیشن و نرم افزار در این حوزه عرضه شده اند، همه آن ها آزمایشی و تحقیقاتی هستند. دلیل آن این است که هنگامی که می خواهیم با یک ویدیو یا عکس دو بعدی کار کنیم (فقط یک دوربین داریم) باید تنها از اطلاعات درون تصویر استفاده کنیم و نمی توانیم از ویژگی های نسبی پرسپکتیو یا زاویه دوربین استفاده کنیم.
جالب ترین و آسان ترین ابزار برای تشخیص حالات بدن انسان، OpenPose است که از آن برای ارزیابی حرکات بوکسور های حرفه ای استفاده می شود و نتایج بسیار مناسبی نیز از آن بدست آمده است.
با وجود کارایی بالا و آینده درخشان این حوزه، اکثر این مدل هایی که معرفی شدند هنوز به اندازه کافی دقیق و مفید نیستند. مخصوصا در اکثر موارد هنگام استفاده از یک دوربین، نتایج کاملا دقیقی ارائه نمی شود.
همچنین آموزش یک مدل پایدار و قوی از نظر داده ها و قدرت پردازشی، کار هزینه بر و زمان بری است. روش هایی مانند یادگیری ماشین خودکار (Auto ML) و یادگیری خود نظارتی (Self-Supervised Learning) می تواند این مشکلات را حل کند اما این روش ها هنوز به طور کامل تحقیقات خود را پشت سر نگذاشته اند و به طور گسترده استفاده نمی شوند.
بیشتر بخوانید :
یک نظر
دنبال کنید : مقدمه ای بر بینایی کامپیوتری برای خودروهای خودران - مجله شهاب