تشخیص اشیا یک مساله قدیمی در زمینه سنجش از راه دور و بینایی رایانه ای بوده است. این به طور کلی به عنوان شناسایی مکان اشیا هدف در تصویر ورودی و همچنین شناسایی دسته های اشیا تعریف می شود.

تشخیص خودکار شی در بسیاری از کاربرد های دنیای واقعی، مانند تشخیص خطر ، نظارت بر محیط زیست، تشخیص تغییرات، برنامه ریزی شهری و غیره به طور گسترده ای مورد استفاده قرار گرفته است.

فهرست مطالب

مقدمه

در دهه های گذشته، تشخیص اشیا به طور گسترده مورد بررسی قرار گرفته و تعداد زیادی روش برای کشف اشیا مصنوعی (به عنوان مثال وسایل نقلیه، ساختمان های داخلی، جاده ها، پل ها و غیره) و اشیا طبیعی (به عنوان مثال دریاچه ها، سواحل، جنگل ها و غیره) در تصاویر سنجش از دور توسعه داده شد.

روش های موجود کشف شی را تقریباً می توان به چهار گربه تقسیم کرد:

روش های مبتنی بر تطبیق الگو
روش های دانش بنیان
تجزیه و تحلیل تصویر مبتنی بر شی
روش های مبتنی بر یادگیری ماشین

در میان آن ها، روش های مبتنی بر یادگیری ماشین دارای قابلیت های قدرت استخراج ویژگی های قوی و طبقه بندی اشیا هستند و به طور گسترده توسط بسیاری از روش های اخیر مورد مطالعه قرار می گیرند تا پیشرفت قابل توجهی برای این مشکلات حاصل شود.

با وجود دستیابی به موفقیت حاصل از روش های مبتنی بر یادگیری عمیق برای تشخیص اشیا، این روش ها از یک مشکل رایج رنج می برند: برای آموزش یک مدل شبکه عصبی عمیق، یک مجموعه داده متنوع در مقیاس بزرگ و متنوع مورد نیاز است.

هرگونه اصلاح در کلاس های قابل شناسایی برای روش های موجود هزینه ساز خواهد بود زیرا جمع آوری یک مجموعه داده جدید RSI با تعداد زیادی برچسب گذاری دستی هزینه بر است و این روش ها برای آموزش مجدد پارامترهای آن ها بر روی مجموعه داده های تازه جمع آوری شده به زمان زیادی نیاز دارند.

از طرف دیگر، آموزش مدلی که فقط چند نمونه از کلاس های جدید در آن وجود داشته باشد، از مشکل بیش برازش رنج می برد و توانایی های تعمیم کاهش می یابد. بنابراین، یک مکانیسم ویژه برای یادگیری ویژگی های قوی از چند نمونه از کلاس های جدید برای تشخیص اشیا لازم است.

در این مقاله، ما یک روش مبتنی بر یادگیری چند عکس برای تشخیص شی در تصاویر سنجش از دور معرفی می کنیم. با توجه به سناریوی چند عکس، مدل ما با هدف یادگیری یک مدل شناسایی از مجموعه داده های کلاس های پایه است که می تواند تشخیص اشیا دقیق را برای کلاس های جدید فقط با چند نمونه حاشیه ای انجام دهد. شکل ۱ ایده اصلی تشخیص شی با چند عکس بر روی تصاویر سنجش از دور را نشان می دهد.

به طور خاص، یک متا استخراج کننده ویژگی برای یادگیری استخراج ویژگی از تصاویر ورودی طراحی شده است. یک ماژول وزن دهی مجدد ویژگی ها برای یادگیری تخصیص وزن های مختلف برای یک از تصاویر پشتیبانی طراحی شده است. یک ماژول پیش بینی مرز، عمل تشخیص اشیا را در نقشه های ویژگی با وزن جدید انجام می دهد.

روش تشخیص چند شات ما شامل دو مرحله است: مرحله آموزش و مرحله تشخیص. در مرحله آموزش، مدل ما در مورد مقدار زیادی از داده های کلاس های پایه آموزش داده می شود و یاد می گیرد که فرا دانش را برای تشخیص موضوع بیاموزد. در مرحله تشخیص، چند نمونه از کلاس های جدید (بدون همپوشانی با کلاس های پایه) برای دقیق کردن مدل مورد استفاده قرار می گیرند تا با کلاس های جدید تطبیق داده شود در حالی که در مرحله آموزش فرا دانش را نیز حفظ می کند.

چکیده روش به شرح زیر است:

در این مقاله، ما اولین روش مبتنی بر یادگیری چند عکس برای تشخیص شی در تصاویر سنجش از دور را معرفی می کنیم. روش ما با داده های مقیاس وسیع از برخی کلاس های پایه آموزش دیده است و می تواند فرا دانش را از کلاس های پایه فرا بگیرد و فقط با چند نمونه به کلاس های جدید تعمیم دهد.
روش ما شامل سه جز اصلی است: یک شبکه استخراج متا ویژگی، یک ماژول وزن گیری مجدد ویژگی و یک ماژول پیش بینی مرز. هر سه ماژول در معماری چند مقیاس طراحی شده اند تا امکان تشخیص شی در چند مقیاس را فراهم کنند.
آزمایشات انجام شده بر روی دو مجموعه داده معیار عمومی، اثربخشی روش پیشنهادی را برای تشخیص شی با چند عکس در تصاویر سنجش از دور نشان می دهد.

تشخیص بیماری گیاهان با شبکه عصبی — تصویر ۱٫تشخیص چند عکس در تصاویر سنجش از دور. مدل ما با تعداد زیادی نمونه برچسب گذاری شده از کلاس های پایه آموزش داده شده و فقط با چند نمونه برچسب گذاری شده تشخیص در کلاس های جدید را انجام می دهد.

روش پیشنهادی

ما ابتدا تنظیمات مربوط به مشکل شناسایی شی یا چند نمونه را روشن می کنیم. هدف یادگیری یک مدل تشخیص از مجموعه داده های کلاس های موجود (کلاس های پایه) است که می تواند تشخیص اشیا را بر روی تصاویر کلاس های جدید را فقط با چند نمونه برچسب گذاری شده از همان کلاس ها نجام دهد.

برای هر کلاس پایه، نمونه های کافی برای آموزش مدل وجود دارد. در حالی که کلاس های جدید فقط چند نمونه برچسب گذاری شده وجود دارد. یک مدل تشخیص شی چند عکسه باید بتواند فرا دانش را از مجموعه داده های کلاس های پایه یاد بگیرد و آن را به کلاس های جدید منتقل کند.

این تنظیمات تشخیص شی چند عکسه، سناریوهای بسیار واقعی در دنیای واقعی است. ممکن است در حال جمع آوری مجموعه داده های مقیاس بزرگ توسعه مدل جدیدی برای کشف اشیا لازم باشد، چرا که در غیر این صورت این کار بسیار زمان بر خواهد بود.

یک نقطه شروع خوب می تواند به کارگیری یک مدل تشخیص از قبل آموزش دیده در مجموعه داده های شناسایی شی در مقیاس بزرگ باشد با این حال، این مجموعه های داده فقط تعداد محدودی از دسته های اشیا را پوشش می دهند، و چون روی چندین دسته خاص تمرکز دارند ممکن است برخی دسته ها در مجموعه داده جدید گنجانده نشوند.

برای تسهیل آموزش و ارزیابی مدل، ما مجموعه های آموزش و آزمایش به چند دسته تقسیم می کنیم. هر قسمت Eiis از مجموعه ای از تصاویر پشتیبانی Si (با برچسب) و مجموعه ای از تصاویر پرس و جو Qi ساخته شده است. با توجه به یک کار تقسیم بندی K عکسه، هر مجموعه پشتیبانی Si شامل K تصاویر حاوی برچسب برای هر دسته شی است.

ما مجموعه پشتیبانی را به عنوان ، Si={(Ik,Mk)} نشان می دهیم که در آن Ik تصویر ورودی و Ik∈Rh×w×۳و Mk مرز و مختصات برچسب را نشان می دهد، برای k = 1,2,..,K. مجموعه پرس و جو Qi شامل تصاویر Nq از همان مجموعه کلاس Ci به عنوان مجموعه پشتیبانی است.

تصاویر پشتیبانی برای یادگیری متا دانش استفاده می شود و مدل ما با استفاده از دانش فراگیری شده در تصاویر پشتیبانی، تشخیص شی را برای تصاویر مورد جستجو انجام می دهد. سپس ویژگی های متا دارای وزن های جدید در سه ماژول تشخیص مختصات مستقل در سه مقیاس مختلف تغذیه می شوند تا نمره های اشیا (o)، مکان و اندازه ها (x ، y ، w ، h) و نمرات کلاس (c) پیش بینی شوند.

شبکه عصبی تشخیص اشیا با داده اندک — تصویر ۲٫ طرح کلی پیشنهادی برای تشخیص شی چند عکس در تصاویر سنجش از دور. روش ما از سه مولفه اصلی تشکیل شده است: استخراج کننده ویژگی های متا، ماژول وزن گیری مجدد و ماژول پیش بینی مکان. شبکه استخراج ویژگی از یک تصویر پرس و جو به عنوان ورودی استفاده می کند و نقشه های ویژگی های متا را در سه مقیاس مختلف تولید می کند. ماژول تولید وزن به عنوان ورودیN تصاویر پشتیبانی دارای برچسب، یکی برای هر کلاس و سه گروه وزن جدید تولید میکند. از این بردارهای وزن دهی مجدد برای کالیبراسیون مجدد نقشه های ویژگی های متا هم مقیاس از طریق ضرب کانال استفاده می شود. سپس نقشه های مشخصه مجدد وزن به سه ماژول تشخیص مکان مستقل برای پیش بینی نمرات شی (o)، مکان ها و اندازه ها (x, y, w, h) و نمرات کلاس (c) در سه مقیاس مختلف تغذیه می شوند.

استخراج کننده متا ویژگی

شبکه استخراج کننده ویژگی های متا ما برای استخراج ویژگی های قوی از تصاویر جستجوی ورودی طراحی شده است. در این مقاله، شبکه استخراج ویژگی ما بر اساس DarkNet-53 و FPN طراحی شده است. برای هر تصویر پرس و جو ورودی، شبکه استخراج کننده ما ویژگی های متا را در مقیاس های سه گانه تولید می کند. اگر I تصویر ورودی باشد، I∈Rh × w × c ، ویژگی های متای تولید شده پس از شبکه استخراج کننده ویژگی می تواند به صورت زیر تنظیم شود:

که i مرحله اسکیل و h, w, m نشان دهنده سایز نقشه ویژگی هستند.

در این پژوهش ما نقشه ویژگی ها را در اسکیل های ۳۲/۱و ۳۲/۱و ۸/۱و .. درنظر می گیریم. نقشه ویژگی خروجی اندازه هایی مانند h/32, w/32, 1024 و … خواهند داشت.

ماژول وزن گیری مجدد

ماژول وزن گیری مجدد ویژگی ما برای استخراج فرا دانش از تصاویر پشتیبانی طراحی شده است. برای رسیدن به این هدف،یکCNN کوچک فرموله شده است تا هر تصویر پشتیبانی را، برای هر مقیاس، بر روی مجموعه ای از بردارهای وزن دهی مجدد ترسیم کند. از این بردارهای وزن دهی مجدد برای تنظیم سهم متا ویژگی ها و متا ویژگی های شاخص برای تشخیص اشیا جدید استفاده خواهد شد.

با فرض اینکه نمونه های پشتیبانی ازN دسته شی مختلف باشند، ماژول وزن دهی مجدد ویژگی ما، ورودی های N تصویر پشتیبانی و ماسک های آن ها را دریافت می کند. برای هر یک از کلاس ها N ، یک تصویر پشتیبانی به همراه جعبه احاطه کننده مربوطه به طور تصادفی از مجموعه پشتیبانی انتخاب می شود. سپس ماژول وزن دهی مجدد ویژگی ما آن را به نمایندگی یک کلاس خاص نگاشت می دهد. از بردار وزن جدید برای وزن دهی متا ویژگی ها و اطلاعات شاخص در اسکیل i و کلاس j استفاده خواهد شد.

جدول ۱ معماری شبکه ماژول وزن دهی مجدد ویژگی ما را نشان می دهد. بردارهای وزن دهی از خروجی هر لایه انتخاب ماکزیمم فراگیر، و هر بردار وزن مجدد همان ابعاد متا-ویژگی مربوطه را دارد. پس از به دست آوردن ویژگی های متا Fi و بردارهای وزنه برداری مجدد Vij ، ما نقشه های ویژگی وزندهی شده مخصوص کلاس Fij را محاسبه می کنیم:

که ⊗ ضرب کانال به کانال است.

پیش بینی جعبه احاطه کننده

ماژول پیش بینی محدود ما (P) نقشه ها ویژگی وزن داده شده را به عنوان ورودی دریافت کرده و دسته بندی شی و محدوده آن را تولید می کند. همانند شبکه یولو ورژن سه، در هر مقیاس، برای هر یک از نقشه های ویژگی های خاص کلاس، سه جعبه محدود پیش بینی می کنیم.

برای رسیدن به این هدف، مجموعه ای از جعبه های لنگر را در هر مکان پیکسل بر روی نقشه های ویژگی ورودی ایجاد می کنیم، شکل ۳ تنظیمات جعبه لنگر را در سه مقیاس مختلف نشان می دهد. برای اولین نقشه ویژگی با مقیاس۱، اندازه جعبه های لنگر روی (۹۰ × ۱۱۶) ، (۱۹۸ × ۱۵۶) ، ۳۲۶ × ۳۷۳) تنظیم شده اند.

برای نقشه مشخصه دوم با مقیاس های سطح ۲، اندازه جعبه های لنگر برای نقشه ویژگی میانی برای (۶۱ ۳۰ ۳۰) ، (۴۵ ۶۲ ۶۲) ، ۱۱۹ ۵۹ ۵۹) تنظیم شده اند. برای نقشه ویژگی سوم با مقیاس ۳، اندازه جعبه های لنگر روی (۱۰ × ۱۳) ، (۱۶ × ۳۰) ، (۳۳ × ۲۳) تنظیم شده است.

تشخیص اشیا با شبکه عصبی و داده اندک — تصویر۳٫ جعبه های لنگر در سه نقشه ویژگی از مقیاس های مختلف. جعبه سبز جعبه محدود کننده واقعی جسم است و جعبه های زرد جعبه لنگر سلول پیش بینی هستند. اندازه تصویر ورودی ۸۰۰ * ۸۰۰ واندازه لنگر از چپ به راست به ترتیب ۱۰۰ * ۱۰۰ و ۵۰ * ۵۰ و ۲۵ * ۲۵ است.

برای هر جعبه لنگر در نقشه ویژگی، ماژول پیش بینی جعبه محدود ما یک خروجی ۶ بعدی ایجاد می کند همانطور که در شکل ۲ نمایش داده شده است. در میان خروجی، ۴ عنصر اول برای پیش بینی مکان شی استفاده می شود و ۲ عنصر سمت چپ نمره شی است ( op) و نمره طبقه بندی (cp). شکل ۴ نمایش خروجی هر جعبه محدود را نشان می دهد.

طبقه بندی تصاویر برای تشخیص اشیا — تصویر۴٫ جعبه های لنگر و نمایش جعبه محدود پیش بینی شده. شبکه خط جامد سلول هایی از نقشه ویژگی است ، مستطیل خط تیره یک جعبه لنگر و مستطیل خط آبی یک جعبه پیش بینی شده است.

با فرض اینکه مختصات یک جعبه محدود پیش بینی شده توسط bx, by, bw, bh اعلام شوند جایی که bx و by مختصات مرکز آن باشد ، bw و bh عرض و ارتفاع جعبه اتصال هستند. به جای اینکه مستقیماً مکان های جعبه محدود را رگرسیون کنیم، ماژول پیش بینی ما ۴ مقدار جابجایی xp ، yp ، wp ، hp را پیش بینی می کند و مختصات جعبه پیش بینی شده را می توان از طریق محاسبه کرد:

جایی که S (x) تابع سیگموئید است و σ یک ضریب تبدیل مقیاس معادل نسبت بین طول سمت ورودی تصویر ورودی و طول سمت ضلع نقشه ویژگیh است. cx و cy فاصله سلول از گوشه بالا سمت چپ تا سلول است ، aw و ah عرض و ارتفاع جعبه لنگر مربوطه هستند.

نمره وجود شی (op) به معنای امکان وجود یک شی است که می تواند به صورت Po = S (op) محاسبه شود، جایی که امکان شیPo است و S (·) تابع سیگموئید است. از آنجا که برای هر کلاس یک مجموعه نقشه ویژگی بارگذاری مجدد داریم ، هر کادر محدود کننده پیش بینی شده به جای تعداد کل دسته ها (N) فقط به یک امتیاز برای پیش بینی کلاس نیاز دارد.

نمره طبقه بندی (cp) احتمال تعلق شی شناسایی شده به هر یک از کلاس ها را نشان می دهد. با در نظر گرفتن امتیازات طبقه بندی تولید شده از مکان های جعبه لنگر با اندازه لنگرهای یکسان به عنوان یک گروه، N نمره طبقه بندی متعلق به جعبه های لنگر ناشی از تصویر ورودی خواهیم داشت.

با نامگذاری این جعبه های پیش بینی شده به صورت ، cpi ، از یک تابع سافت مکس به عنوان بردار احتمال برای نرمال کردن این مقادیر استفاده می شود. نمره طبقه بندی نهایی برای هر کلاسیک به صورت زیر فرموله می شود:

Pci احتمال طبقه بندی نهایی کلاس i است وΣ^N_i=0pci = 1 .احتمال وجود شی و احتمال طبقه بندی با هم می توانند به قضاوت درمورد تشخیص شی و تعلق آن به یک کلاس کمک کنند.

عملکرد خطا مدل تشخیص شی ما شامل دو قسمت است، خطا محلی سازی شی و طبقه بندی شی. برای محلی سازی شی، ما از خطای میانگین مربعات استفاده می کنیم تا هم ترازی بین جعبه های مرزی پیش بینی شده و جعبه های حقیقت را جریمه کنیم. با توجه به مختصات جعبه های مرزی پیش بینی شده dp و مختصات جعبه های محدود کننده حقیقت dt، تلفات محلی سازی شی محاسبه می شود:

جایی که l مختصات را نشان می دهد، می توان آن را از {w ، y ، w ، h} انتخاب کرد، یعنی چهار نمایش مختصات از یک جعبه محدود کننده خاص. pos نشان دهنده همه لنگرهای مثبت است که انتظار می رود جعبه محدود کننده حقیقت را پیش بینی کند. فقط تلفات لنگر مثبت در محاسبات تلفات مختصات استفاده می شود و تلفات محلی سازی آن لنگرهای منفی نادیده گرفته می شوند.

اگر IoU بین این جعبه لنگر با یک جعبه محدود کننده حقیقت خاص بزرگتر از یک آستانه داده شده باشد، یک جعبه لنگر را مثبت می دانیم (به عنوان مثال ، ۰٫۷). همچنین، اگر IoU بین این جعبه لنگر با تمام جعبه محدود کننده حقیقت کمتر از آستانه داده شده باشد، یک جعبه لنگر را منفی تشخیص می دهیم (به عنوان مثال ، ۰٫۳). ما همچنین اگر یک جعبه لنگر دارای بزرگترین IoU با یک جعبه محدود کننده حقیقت خاص در بین همه جعبه های لنگر باشد، مثبت ارزیابی می کنیم.

تابع خطا برای نمره شی که خطا آنتروپی باینری است که به صورت زیر محاسبه می شود:

جایی که Po نشانگر احتمال شیئی پیش بینی شده در بالا است. Pt نشان دهنده احتمال واقعی است که وقتی یک جعبه مثبت است یک و در صورت منفی صفر است. w_obj و w_noobj وزن خطا شی و خطا غیر شی هستند.

با توجه به اینکه معمولاً جعبه های منفی بیشتری نسبت به جعبه های مثبت وجود دارد، از w_obj و w_noobj برای ایجاد تعادل بین این دو اصطلاح ضرر استفاده می شود. برای طبقه بندی اشیا، ما از خطا متقابل استفاده می کنیم تا کلاس های پیش بینی شده را با واقعیت مطابقت دهیم که بصورت زیر محاسبه می شود:

جایی که cpt نمره طبقه بندی کلاس واقعی است. از آنجا که ما قبلاً از نمره شی برای تصمیم گیری در مورد اینکه آیا جعبه پیش بینی شده یک شی دارد یا نه استفاده می کنیم، بنابراین کلاس پس زمینه در هنگام محاسبه از دست دادن طبقه بندی نادیده گرفته می شود. عملکرد کلی خطا هدف به صورت زیر تنظیم شده است:

آموزش و استنباط

برای تسهیل اموزش مدل در سناریوهای شناسایی چند شات، در حین آموزش، مجموعه آموزش را به دو مجموعه تنظیم کردیم: مجموعه پرس و جو (Q) و مجموعه پشتیبانی (S). مجموعه پرس و جو (Q) شامل مجموعه ای از تصاویر درخواست و برچسب آن ها (A) است:

همانطور که در سه توضیح داده شده است، هر تصویر پرس و جو با گروهی از تصاویر پشتیبانی از همه کلاس ها مرتبط است. بنابراین، تصاویر آموزشی را با توجه به دسته بندی اشیا موجود در آن به N گروه تفکیک می کنیم.

پس از تجدید گروه، برای هر تصویر پشتیبانی یک ماسک جعبه ایجاد می شود. این ماسک با تنظیم مقدار پیکسل روی ۱ تولید می شود وقتی پیکسل در جعبه حقیقت واقع باشد و در غیر این صورت ۰ است. با فرض M̂I ماسک جعبه اتصال I است، مجموعه پشتیبانی می تواند به صورت زیر تنظیم شود:

هر قسمت شامل یک تصویر پرس و جو در، برچسب تصویر پرس و جو و جفت یک تصویر پشتیبانی و ماسک جعبه محدود کننده آن از هر گروه خاص کلاس است:

Ij و {(̂Iij,M̂Iij)} به ترتیب در Feature Extractorاستخراج کننده ویژگی و ماژول وزن دهی وارد می شوند در حالی که Aj به عنوان حقیقت استفاده می شود.

در سناریوی تشخیص چند شات، برای تنظیم چند شات باید برخی از کلاس های شی را در مجموعه داده بگذاریم. برای رسیدن به این هدف ، همه کلاس های مجموعه داده به کلاس های پایه و کلاس های جدید تقسیم می شوند. کلاس های پایه برای آموزش یک مدل دقیق به حداکثر نمونه ممکن احتیاج دارنددر حالی که کلاس های جدید فقط با چند نمونه برچسب گذاری شده به عنوان یک کار تشخیص جدید در نظر گرفته می شوند.

روند آموزش به دو مرحله تقسیم می شود اولین آموزش مرحله به مرحله در کلاس های پایه برای یادگیری پارامترهای شبکه. این مرحله به طور کلی به مقدار زیادی آموزش داده نیاز دارد، مدت زمان نسبتاً زیادی را می گذراند و معمولاً در صورت استفاده مجدد، لازم نیست دوباره آن را انجام دهید. مرحله دوم افزودن کلاس های جدید با چند نمونه است که سریع است و در صورت افزودن کلاس های جدید اجرا می شود. روند کلی آموزش و آزمایش در الگوریتم ۱ نشان داده شده است.

الگوریتم آموزش و آزمایش — تصویر ۵٫ الگوریتم آمورش و آزمایش

نتایج

مجموعه داده NWPU VHR-10 : این مجموعه داده شامل ۸۰۰ RSI از گوگل ارث و مجموعه داده ISPRS Vaihingen است. ۱۵۰ نمونه منفی بدون اشیا هدف و ۶۵۰ نمونه مثبت با حداقل یک شی به صورت دستی یادداشت می شوند. در مجموع ۱۰ دسته شی در این مجموعه داده وجود دارد: هواپیما، الماس بیس بال، بسکتبال، پل، زمین، پیست دو میدانی، بندر، کشتی، مخزن ذخیره سازی، زمین تنیس و وسیله نقلیه.

مجموعه داده DIOR : تصاویر در مجموعه داده های DIOR با ۲۳،۴۶۳ تصویر و ۱۹۲،۴۷۲ نمونه از ۲۰ کلاس از گوگل ارث جمع آوری شده اند. کلاس های این اشیا شامل هواپیما، فرودگاه، زمین بیس بال، زمین بسکتبال، پل، دودکش، سد، ایستگاه عوارض راه سریع، بندرگاه، زمین گلف، پیست دو و میدانی، روگذر، کشتی، استادیوم، زمین تنیس، ایستگاه قطار، وسیله نقلیه و آسیاب بادی. اندازه همه تصاویر در اندازه ۸۰۰ × ۸۰۰ پیکسل است و تفکیک پذیری های مکانی از ۰٫۵ تا ۳۰ متر است. در مجموعه داده هایDIOR ، اندازه اشیا بسیار متفاوت است.

نتایج روی مجموعه داده NWPU VHR-10

جدول ۲ عملکرد تشخیص شی چند شات از روش ما و شبکه یولو ورژن۳ در کلاس های جدید مجموعه داده NWPU VHR-10 را لیست می کند.

نتایج مجموعه داده NWPU VHR-10 — جدول۲٫ نتایج و مقایسه روش پیشنهادی ما بر روی کلاس های جدید مجموعه داده NWPU VHR-10

نتایج روی مجموعه داده DIOR

با توجه به اینکه مجموعه داده های DIOR یک مجموعه داده بزرگ در مقیاس بزرگ است که دارای تغییرات زیادی در ساختارها و اندازه های اجسام است، تعداد بیشتری از نمونه های برچسب گذاری شده برای کلاس های جدید استفاده می شود.جدول ۳ نتایج روش ما و مقایسه آن با سایر روش ها را در کلاس های جدید این مجموعه داده نمایش می دهد.

نتایج مجموعه داده DIOR — جدول۳٫ عملکرد شناسایی چند عکس (دقت) در کلاس های جدید داده های DIOR.

تصویر مجموعه داده های تشخیص اشیا — تصویر ۶٫ نمونه های منتخب نتایج تشخیص چند شات ما. چپ: نتایج تشخیص در کلاس های جدید مجموعه داده NWPU VHR با استفاده از تنظیم ۱۰ شات. راست: نتایج تشخیص در کلاس های جدید مجموعه داده DIOR با استفاده از تنظیم ۲۰ شات. جعبه های قرمز ، زرد و آبی به ترتیب تشخیص مثبت منفی ، مثبت کاذب و منفی کاذب را نشان می دهند.

عملکرد شبکه تشخیص اشیا — تصویر ۷٫ عملکرد تشخیص در وظایف دارای عکس های مختلف از مجموعه داده NWPU VHR-. خطوط افقی خط نمایش عملکردهایی با تمام نمونه ها در مجموعه داده است که ۱۰۲۵ نمونه برای هواپیما، ۵۱۹ نمونه برای الماس بیس بال و ۶۴۳ نمونه برای زمین تنیس است

عملکرد دقت کلاسه بندی تشخیص اشیا — جدول۴٫ عملکرد شناسایی (دقت) در کلاس های پایه داده های NWPU VHR-

عملکرد دقت کلاسه بندی تشخیص اشیا DIOR — جدول۵٫ عملکرد شناسایی (نقشه) در کلاس های پایه داده های DIOR

ما عملکرد مدل شفاف سازی شی چند شات خود را تحت تعداد مختلف عکس در کلاس های جدید بررسی می کنیم. برای نشان دادن مزیت مدل مبتنی بر چند شات، ما آزمایشاتی را با همه نمونه های آموزشی از گروه های جدید مجموعه داده NWPUVHR-10 انجام داده و از YOLOv3 به عنوان مدل پایه استفاده می کنیم.

برای مدل ما، آزمایشاتی را با دامنه چند شات بزرگ تر (از ۵ عکس تا ۶۰ عکس) انجام می دهیم. همانطور که در شکل ۷ نشان داده شده است، مدل ما با تنها ۶۰ نمونه آموزشی (۸٪) از گروه های جدید می تواند عملکرد تشخیصی مشابه مدل پایه را که از همه نمونه های آموزشی استفاده می کند، بدست آورد.

ما مدیون این واقعیت هستیم که مدل ما می تواند فرا دانش را از کلاس های پایه فرا بگیرد و به طور موثر آن را برای تشخیص در کلاس های جدید اعمال کند، در حالی که مدل پایه نمی تواند دانش را از کلاس های پایه به کلاس های جدید منتقل کند. علاوه بر این، در کلاس زمین بیس بال، مدل ما با تنها ۲۰ نمونه تقریباً همان عملکرد مدل پایه را دارد که از همه نمونه های آموزشی استفاده می کند.

این احتمالاً وجود دارد که زمین بیس بال دارای تنوع کمتری در این رده هستند و به راحتی می توان با آن را از چند نمونه تشخیص داد. در مقابل، اگرچه کلاس هواپیما تقریباً عملکرد مشابه کلاس بیس بال را با استفاده از مدل پایه دارد، اما عملکرد تشخیص چند شات به طور قابل توجهی بدتر است.

این به این دلیل است که اشیا موجود در گروه هواپیما دارای تغییرات ساختاری و اندازه بزرگتری هستند، همانطور که در شکل ۵ نشان داده شده است، و این چالش مانع از آن می شود که فقط با چند نمونه (کمتر از ۶۰) عملکرد رضایت بخشی بدست آوریم. حتی اگر نمونه های کافی (۶۰ عکس) ارائه شود، مدل مبتنی بر چند شات می تواند با موفقیت عملکردی مشابه مدل پایه را بدست آورد.

نتیجه گیری

در این مقاله یک روش جدید مبتنی بر یادگیری چند عکس برای شناسایی اشیا در تصاویر سنجش از دور معرفی شده است، که یکی از اولین روش های به چالش کشیدن این مبحث است. ما ابتدا مسئله تشخیص شی چند عکس را در تصاویر سنجش از دور فرموله می کنیم. سپس ما روش پیشنهادی خود را که شامل سه جز اصلی است، معرفی می کنیم.

روش ما با مقیاس بزرگ داده از برخی کلاس های پایه آموزش دیده است و می تواند فرا دانش را از کلاس های پایه بیاموزد و فقط با چند نمونه به کلاس های جدید تعمیم بخشد. آزمایش روی دو مجموعه داده عمومی نشان دهنده توانایی قدرتمند روش ما در تشخیص اشیا از کلاس های جدید از طریق چند نمونه است. این کار اولین قدم در تشخیص چند شات در زمینه سنجش از دور است.

بیشتر بخوانید :

منبع Few-shot Object Detection on Remote Sensing Images

امتیاز دهید!

تشخیص اشیا با داده های اندک برای کاربرد سنجش از راه دور