یادگیری عمیق با داده های اندک برای کلاسه بندی تصاویر ابر طیفی

تجزیه و تحلیل تصاویر ابر طیفی ( Hyperspectral ) می تواند اطلاعات طیفی و مکانی فراوانی را به طور همزمان در اختیار کاربران قرار دهد. چنین اطلاعات فراوانی به طور گسترده ای در برنامه های مربوط به مشاهده زمین به عنوان نظارت بر محیط زیست و کشاورزی مورد استفاده قرار گرفته است.

طبقه بندی تصاویر ابر طیفی برای این زمینه ها از اهمیت بالایی برخوردار است. هدف از طبقه بندی، اختصاص هر پیکسل به یک کلاس خاص بر اساس ویژگی مربوطه است. با توجه به در دسترس بودن نمونه های دارای برچسب، طبقه بندی را می توان به طور کلی به طبقه بندی نظارت شده، طبقه بندی بدون نظارت و طبقه بندی نیمه نظارت شده تقسیم کرد. به طور کلی، طبقه بندی های نظارت شده دقت طبقه بندی بالاتری از طبقه بندی های بدون نظارت دارند.

در این زمینه، طبقه بندی های طیفی تحت نظارت از قبیل ماشین های پشتیبان، جنگل تصادفی، شبکه عصبی و ماشین های یادگیری شدید به شدت در زمینه فراطیفی مورد مطالعه قرار گرفته اند. با این حال، ابعاد بالا و نمونه های اندک هنوز هم باعث به وجود آمدن تنگنا برای طبقه بندی های تحت نظارت می شوند.

استخراج ویژگی به عنوان روش مفیدی در نظر گرفته می شود تا از مشکل مشقت چند بعدی جلوگیری شود. روش های ساده استخراج ویژگی برای کاهش ابعاد از تجزیه و تحلیل مولفه های اصلی، تجزیه و تحلیل مولفه های مستقل یا استخراج ویژگی های خطی محلی استفاده می کنند. مطالعات اخیر نشان داده است که ترکیب اطلاعات مکانی در طبقه بندی کننده های پیکسل برای بهبود عملکرد طبقه بندی مفید است.

به همین دلیل، تعداد زیادی از روشهای استخراج ویژگی های فضایی طیفی برای طبقه بندی فراطیفی ایجاد شده است، مانند نمایه های مورفولوژیکی گسترده، میدان تصادفی مارکوف، الگوی محلی، فیلتر های موجک گابور، تجزیه و تحلیل تفکیک، .. .علاوه بر این ، روش های انتخاب باند، در زمینه تصاویر فراطیفی برای کاهش ابعاد ویژگی استقاده می شوند. به دست آوردن یک نتیجه طبقه بندی رضایت بخش با نمونه های دارای برچسب محدود معمولاً برای یک طبقه بندی نظارت شده دشوار است، اگرچه استخراج ویژگی و انتخاب ویژگی همه می تواند مشکل کمبود نمونه برچسب خورده را برطرف کند.

جمع آوری نمونه های دارای برچسب در تصاویر ابر طیفی معمولاً وقت گیر و طاقت فرسا هستند. در مقابل، نمونه های بدون برچسب آسان تر در دسترس قرار می گیرند. این واقعیت ایده یادگیری نیمه نظارتی را پرورش می دهد که می تواند به طور مشترک از نمونه برچسب گذاری شده و بدون برچسب برای مقابله با مسئله مشقت چند بعدی استفاده کند.

الگوریتم های نیمه نظارت شده، توجه بیشتری را در حوزه طبقه بندی فراطیفی جلب کرده اند و به طور معمول نتایج بهتری نسبت به رویکردهای تحت نظارت، به ویژه با تعداد کمی از نمونه های دارای برچسب دارند. الگوریتم های سنتی نیمه نظارت شامل مدل تولیدی، بردار پشتیبان انتقالی، خودآموزی، آموزش همزمان و روش های مبتنی بر نمودار هستند. در همین حال، اطلاعات مکانی نیز به منظور بهبود بیشتر عملکرد، در طبقه بندی نیمه نظارت شده قرار می گیرد.

مساله

در سال های اخیر، یادگیری عمیق به موفقیت های زیادی در بسیاری از برنامه های چالش برانگیز دست یافته است، به ویژه در زمینه های شناسایی تصویر، تشخیص شی و تشخیص گفتار. در پی این موفقیت ها، استفاده از آموزش عمیق در پردازش داده های سنجش از دور نیز وارد شده است.

در حال حاضر ، مشکل اصلی در رویکرد های مبتنی بر یادگیری عمیق، کمبود نمونه های دارای برچسب است. هدف این مقاله حل مسئله استفاده از روش های یادگیری عمیق برای طبقه بندی تصاویر ابرطیفی فقط با چند نمونه برچسب دار است. به طور خاص، یک روش یادگیری چند عکس عمیق برای انجام طبقه بندی با تصاویر اندک (پنچ تصویر برچسب زده شده برای هر کلاس) ارائه شده است. این روش از سه قسمت تشکیل شده است.

بخش اول یادگیری یک فضای متریک از یک مجموعه داده آموزشی است. می دانیم که با استفاده از ماشین بردار پشتیبان می توان طبقات مختلف را به طور موثر با فاصله اقلیدسی از هم جدا کرد. با الهام از این، ما فاصله اقلیدسی را برای جداسازی طبقات مختلف در فضای متریک در نظر می گیریم. فضای متریک با یک شبکه عمیق سه بعدی پارامتر می شود زیرا مدل های شبکه های کانولوشنی عمیق توانایی بیان غیرخطی قوی دارند و می توانند به شیوه انتها به انتها اموزش داده شوند.

هدف از بهینه سازی عملکرد خطا این است که شبکه یک فضای متریک را یاد بگیرد که ویژگی های نمونه دارای فاصله بین کلاس کوچک و فاصله بین کلاس بزرگ باشند. روش یادگیری رسوبی نیز مقدمه ای برای آموزش بهتر شبکه عمیق است. بنابراین، فضای متریک در نهایت با یک شبکه عمیق سه بعدی رسوبی مدل می شود. پس از یادگیری شبکه، می توان از آن به عنوان یک تابع مجزا ساز یاد کرد.

بخش دوم استخراج ویژگی های همه نمونه ها در مجموعه داده های آزمایش با استفاده از یک شبکه عمیق سه بعدی رسوبی از پیش آموزش دیده شده است.

قسمت سوم طبقه بندی نمونه های آزمایش است. طبقه بندی کننده هایی که معمولاً استفاده می شوند برای تعیین پارامترهای مطلوب نیاز به استفاده از اعتبارسنجی متقابل دارند. با توجه به اینکه فقط چند نمونه دارای برچسب در دسترس است، برای جلوگیری از جستجوی پارامترهای اضافی، یک طبقه بندی ساده نزدیکترین همسایه را اتخاذ می کنیم.

بخش های اصلی این مقاله به شرح زیر است:

 1) یک روش اموزش عمیق با داده های اندک برای آموزش شبکه در نظر گرفته شده است که باعث می شود نمونه های همان کلاس به یکدیگر نزدیک شوند. مهم این است که چنین فضای متریکی برای کلاسهایی که در طول آموزش دیده نمی شوند، همین کار را انجام می دهد در نتیجه، طبقه بندی مجموعه داده های آزمایش می تواند توسط یک طبقه بندی کننده نزدیک ترین همسایه انجام شود.

۲) شبکه عمیق سه بعدی برای پارامتر سازی فضای متریک استفاده می شود. علاوه بر این، یادگیری رسوبی برای آموزش بهتر شبکه ارائه می شود. این شبکه عمیق می تواند به طور مستقیم ویژگی های طیفی-مکانی را از مکعب های داده بدون اتکا به هرگونه پیش پردازش استخراج کند.

۳) آزمایش ها بر روی چهار مجموعه داده شناخته شده تصاویر ابر طیفی انجام شده است، که نشان می دهد روش پیشنهادی می تواند از روش های نیمه نظارت شده معمولی فقط با چند نمونه برچسب بهتر عمل کند.

روش پیشنهادی

به طور کلی، آموزش مدل های یادگیری عمیق فقط با چند نمونه برچسب دار چالش برانگیز است. چالش مسئله در ایجاد تعادل بین فضای پارامتری عظیم و نمونه های برچسب دار اندک است. تعادل مناسب بین مجموعه پارامتر ها و اندازه مجموعه داده ها معمولاً برای آموزش موفقیت آمیز یک طبقه بندی یادگیری عمیق لازم است.

انسان ها می توانند از دانش قبلی خود برای کمک به حل مشکلات استفاده کنند. مشابه انسان، ما از چند نمونه آموزش پیش جمع آوری شده برای یادگیری یک فضای متریک استفاده می کنیم. پس از آن، ما نشان می دهیم که چنین فضایی متریک آموخته شده به کلاس های جدید تعمیم یافته و عملکرد طبقه بندی را فقط با چند نمونه برچسب زده شده در مجموعه داده های آزمایش بهبود می بخشد.

استراتژی یادگیری و آموزش شبکه ی عمیق با داده های اندک

برای آموزش یک فضای متریک مناسب برای طبقه بندی با داده اندک شبکه را به عنوان یک تابع مجزا ساز به شکل ƒфRD→RM در نظر می گیریم که ф معادل تعداد پارامتر های قابل آموزش شبکه، D ابعاد تصویر ورودی شبکه و M ابعاد خرجی شبکه هستند.

زیر مجموعه ای از داده های آموزشی به طور تصادفی انتخاب می شوند تا یک اپیزود برای محاسبه گرادیان ها و به روزرسانی شبکه تشکیل دهند. زیر مجموعه ای از نمونه ها در هر کلاس برای عملکرد به عنوان مجموعه پشتیبانی انتخاب می شود. در این مقاله، فقط یک نمونه در هر کلاس به عنوان مجموعه پشتیبانی انتخاب می شود. توزیع احتمال برای کلاس ها برای یم داده X به شکل زیر محاسبه می شود

فرمول آموزش شبکه عصبی با داده های اندک

که Ck  به تابع مجزا ساز کلاس K ام در مجموعه پشتیبان اشاره دارد. X به ویژگی های استخراج شده در مجموعه داده های پرس و جو وy به برچسب x اشاره می کند. d(.) نشان دهنده فاصله اقلیدسی است. تابع خطا نیز به صورت زیر تعریف می شود.

فرمول تابع خطا آموزش شبکه عصبی با داده اندک

به حداقل رساندن تابع خطا با قاعده کاهش تصادفی گرایان معادل با آموزش شبکه است که باعث به وجود امدن یک فضا متریک مناسب می شود که در آن کلاس ها از نظر مفهومی به یکدیگر شبیه هستند.

شبکه عمیق سه بعدی کانولوشنی

کانولوشن سه بعدی : شبکه عمیق سه بعدی با بدست آوردن اطلاعات رمزگذاری شده در فریم های پی در پی آنالیز ویدئو ها را ممکن ساخت. به طور مشابه یک شبکه کانولوشنی سه بعدی عمیق، می تواند اطلاعات همبستگی طیفی و مکانی رمزگذاری شده در چندین باند مجاور  تصاویر ابر طیفی را ضبط کند.

یک شبکه کانولوشنی سه بعدی عمیق  بر پایه عملگر کانولوشن سه بعدی است. کانولوشن سه بعدی مشابه با کانولوشن دو بعدی است. در شکل ۳ کانولوشن سه بعدی نشان داده شده است. مقدار کانونولشن سه بعدی در مکان (x,y,z) به شکل زیر محاسبه می شود.

فرمول کانولوشن سه بعدی

که i اندیس لایه کانولوشن و j اندیس نقشه ویژگی هستند. Pi,Qi,Ri نمایانگر ارتفاع، عرض و ابعاد کرنل سه بعدی طیفی، f(.) نمیانگر تابع فعال ساز و bij نشان دهنده بایاس هستند. m نشان دهنده اندیس نقشه ویژگی و w مقدار را در مکان (p,q,r)  نشان می دهد.

شماتیک کانولوشن سه بعدی
شکل۱- کانولوشن سه بعدی

یادگیری رسوبی : در مقایسه با روش های سنتی یادگیری ماشینی، شبکه عمیق با لایه های مخفی دارای قابلیت یادگیری ویژگی بیشتری است. با این حال، شبکه های عصبی عمیق با توجه به نمونه های آموزش محدود، با افزایش عمق شبکه، اغلب دچار مشکل می شوند. روش یادگیری عمیق یک روش برای حل این مشکل است. در تصویر ۳ این روش نمایش داده شده است.

شماتیک شبکه عصبی رسوبی
شکل۲- شبکه رسوبی

ایده یادگیری رسوبی معرفی یک میانبر بر اساس معماری شبکه سنتی است. چنین میانبری می تواند از اتصالات برخی لایه ها عبور کند و یک مسیر اصلی جایگزین اضافه کند. بنابراین، خطای اساسی در فرآیند آموزش می تواند از طریق میانبر به سطح بالایی منتقل شود، این مسئله باعث می شود تا مشکلی محو شدن گرادیان در شبکه هایی با تعداد لایه بالا برطرف شود و آموزش شبکه های عمیق ساده شود.

معماری شبکه : همان طور که در شکل چهار نمایش داده شده است، یک شبکه سه بعدی کانولوشنی عمیق با دو بلوک رسوبی، دو لایه پولینگ و یک لایه کانولوشنی به عنوان تابع استخراج ویژگی در نظر گرفته شده است. conv یک لایه کانولوشن سه بعدی با کرنل ۳ ×۳ × ۳ نشان می دهد. Pooling یک حداکثر پولینگ سه بعدی با گام ۴×۲×۲ را نشان می دهد. ReLU  تابع فعال ساز یکسو ساز خطی است که از طریق زیر محاسبه می شود

تابع فعال سازی یکسو ساز خطی

در شکل چهار جعبه خط چین یک بلوک رسوبی است.

معماری شبکه رسوبی
شکل۳- معماری شبکه

طبقه بندی با نزدیکترین همسایه

همانطور که در شکل ۵ نشان داده شده است، طبقه بندی مجموعه داده های آزمایش شامل سه مرحله است:

  1. استخراج ویژگی های تعبیه شده از طریق یک شبکه سه بعدی عمیق اموزش داده شده
  2. محاسبه فاصله اقلیدسی بین نمونه های برچسب زده شده و نمونه های طبقه بندی شده
  3. تعیین برچسب های نهایی با استفاده از طبقه بندی نزدیک ترین همسایه
چارت طبقه بندی روی داده های آزمایش

در واقع شبکه عصبی عمیق سه بعدی رسوبی طراحی شده را می توان به عنوان یک تابع استخراج ویژگی پس از آموزش در نظر گرفت. در روند طبقه بندی مجموعه داده های آزمایش همه نمونه ها به یک شبکه از پیش آموزش داده شده داده می شوند تا فرایند استخراج ویژگی انجام شود. سپس تعداد کمی داده برچپسب خورده به طور تصادفی به عنوان داده های نظارت شده در نظر گرفته می شوند.

شبکه آموزش دیده، بعث می شود نمونه های مشابه در فضای ویژگی کنار هم قرار بگیرند. بنابراین داده های آزمایش همانند شکل شش می توانند با یک طبقه بندی نزدیک ترین همسایه طبقه بندی شوند.ذکر این نکته مهم است که دادهه های آموزش و آزمایش از یکدیگر مستقل هستند. در نهایت، نقشه های طبقه بندی تولید شده توسط برچسب های نمونه های آزمایش، با نقشه های پس زمینه مطابقت داده می شوند تا روش های مختلف طبقه بندی ارزیابی شوند.

مجموعه داده ها

برای آموزش طبقه بند از چهار مجموعه داده متفاوت استفاده شده است که مشخصات این مجموعه داده ها شامل رزولوشن تصاویر، رنج طیف تصاویر، تعداد باند ها، نوع سنسور استفاده شده برای تصویر برداری، نام منطقه تصویر و تعداد کلاس ها در جدول شماره یک لیست شده است و هم چنین برای ارزیابی روش پیشنهاد شده از چهار مجموعه داده مختلف استفاده شده است که مشخصات آن ها در جدول دو ذکر شده اند.

جزئیات مجموعه داده های آموزش
جدول ۱- جزئیات مجموعه داده های آموزش
جزئیات مجموعه داده های آزمایش
جدول ۲- جزئیات مجموعه داده های آزمایش

در ادامه می توانید برخی از تصاویر مجموعه داده های فوق را مشاهده بفرمایید.

تصویر هوایی شبه رنگ
تصویر مرجع برچسب خورده
شکل ۵- تصویر بالا) تصویر شبه رنگ. تصویر پایین) مرجع برچسب خورده
تصویر شبه رنگ و برچسب خورده
شکل۶- تصویر چپ) تصویر شبه رنگی تصویر راست) تصویر برچسب خورده

تنظیمات و نتایج

شبکه مورد نیاز برای استخراج ویژگی می تواند یک شبکه عصبی دلخواه باشد. در این مقاله، یک یک شبکه عمیق سه بعدی کانولوشنی رسوبی طراحی شده است. ما همچنین سایر معماری ها را نیز آزمایش کردیم.شبکه هایی از قبیل: کانولوشنی دو بعدی، دوبعدی رسوبی و سه بعدی. ذکر این نکته لازم است که در شبکه های کانولوشنی دو بعدی تصویر باید مورد پردازش کاهش بعد قرار گیرند. جزئیات بیشتر و پارامتر های معماری های مختلف و نتایج حاصل شده را در جدول های ذیل لیست شده اند.

پارامتر های شبکه های D-2-D و D-3-D
جدول۳- پارامتر های شبکه های دو بعدی و سه بعدی
پارامتر های شبکه های رسوبی D-2-D و D-3-D
جدول۴- پارامتر های شبکه های D-2-D و D-3-D
دقت کل روی مجموعه داده های مختلف برای معماری های متفاوت
جدول۵- پارامتر های شبکه های رسوبی D-2-D و D-3-D
جدول دقت کل روی مجموعه داده های مختلف برای معماری های متفاوت
جدول۶- دقت کل روی مجموعه داده های مختلف برای معماری های متفاوت
دقت کل روی مجموعه داده های مختلف با تعداد کرنل های متفاوت
جدول۷- دقت کل روی مجموعه داده های مختلف با تعداد کرنل های متفاوت
منحنی تابع خطا برای نرخ های یادگیری مختلف
شکل۸- منحنی تابع خطا برای نرخ های یادگیری مختلف

مقایسه با سایر روش ها

در جدول های زیر روش پیشنهادی با سایر روش ها مقایسه شده است. L نمایانگر تعداد داده های دارای برچسب در هر کلاس است که در فرآیند آموزش بکار رفته است. همچنین مقدار پر رنگ نشان دهنده بهترین نتیجه است.

دقت کل برای روش های مختلف روی مجموعه داده UP
جدول ۸- دقت کل برای روش های مختلف روی مجموعه داده UP
دقت کل برای روش های مختلف روی مجموعه داده PC
جدول ۹- دقت کل برای روش های مختلف روی مجموعه داده PC
دقت کل برای روش های مختلف روی مجموعه داده IP
جدول ۱۰- دقت کل برای روش های مختلف روی مجموعه داده IP
دقت کل برای روش های مختلف روی مجموعه داده SALINAS
جدول ۱۱- دقت کل برای روش های مختلف روی مجموعه داده SALINAS
خروجی روش طبقه بند نزدیک ترین همسایه
شکل۸- خروجی روش پیشنهادی با طبقه بند نزدیک ترین همسایه برای یک نمونه تصویر. تصویر a تصویر مرجع و دارای برچسب. تصاویر b,c,d,e,f خروجی شبکه برای L های ۵ و ۱۰ و ۱۵ و ۲۰ و ۲۵

یکی از پارامتر های مهم در بررسی روش های مختلف زمان مورد نیاز برای آموزش شبکه است. در جدول ۱۱ زمان مورد نیاز برای آموزش روش پیشنهادی و سایر روش های مطرح لیست شده اند. در تمامی آزمایش ها از یک لبتاپ با پردازنده اینتل Core i7-5700HQ, 2.7GH و پردازنده گرافیکی GeForce GTX 970M و حافظه موقی ۳۲ گیگا بایتی بهره گرفته شده است.

مقایسه زمان آموزش روش های مختلف
جدول ۱۱- مقایسه زمان آموزش روش های مختلف
دقت در هر کلاس برای روش های مختلف مجموعه داده UP
جدول ۱۲- دقت در هر کلاس برای روش های مختلف در مجموعه داده UP
دقت در هر کلاس برای روش های مختلف در مجموعه داده PC
جدول ۱۳- دقت در هر کلاس برای روش های مختلف در مجموعه داده PC
دقت در هر کلاس برای روش های مختلف در مجموعه داده IP
جدول ۱۴- دقت در هر کلاس برای روش های مختلف در مجموعه داده IP
دقت در هر کلاس برای روش های مختلف در مجموعه داده SALINAS
جدول ۱۵- دقت در هر کلاس برای روش های مختلف در مجموعه داده SALINAS

نتیجه گیری

اگرچه روش های یادگیری عمیق عملکرد عالی در طبقه بندی تصاویر ابر طیفی نشان داده اند، اما نمونه های دارای برچسب پراکنده مانع عمده ای برای کاربرد آن ها هستند. در این مقاله ، یک روش بر مبنای یادگیری عمیق ارائه شده است. بینش کلیدی این است که شبکه ای آموزش دیده می شود تا در یک فضای متریک نمونه هایی از یک کلاس به یکدیگر نزدیک باشند و کلاس های مختلف با فاصله از هم جدا شوند.

در چنین فضایی، طبقه بندی می تواند توسط یک طبقه بندی کننده ساده (به عنوان مثال، نزدیک ترین همسایه) انجام شود. آزمایشات در چهار مجموعه داده که به طور گسترده مورد استفاده قرار می گیرند، انجام می شود و نتایج، توانایی تعمیم مدل آموزش دیده را نشان می دهد. وقتی تعداد نمونه برچسب دار در دسترس نباشد، روش پیشنهادی از روش های نیمه نظارتی مرسوم پیشی می گیرد.

بیشتر بخوانید :

منبع Deep Few-Shot Learning for Hyperspectral Image Classification

درباره‌ی رضا حاجی محمدی

همچنین ببینید

کاربرد های بینایی کامپیوتری در خودرو های خودران

کاربردهای بینایی کامپیوتری در خودروهای خودران

در فناوری خودرو های خودران، بینایی کامپیوتری یکی از مهم ترین و کاربردی ترین مباحثی …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.