از بین همه برنامه های کاربردی فعلی یادگیری عمیق ، بینایی ماشین یکی از محبوب ترین آن هاست. از آنجا که شبکه عصبی کانولوشنی (CNN) یکی از بهترین ابزارهای موجود برای بینایی ماشین است ، این شبکه ها به یادگیری عمیق کمک کرده اند تا به یکی از داغترین موضوعات در هوش مصنوعی تبدیل شود.
CNN ها شبکه های عمیقی هستند که برای تشخیص تصویر ، شی و حتی تشخیص گفتار استفاده می شوند. این شبکه ها که توسط یان لکون در دانشگاه نیویورک توسعه داده شده اند ، در حال حاضر در صنعت فناوری ، مانند فیسبوک برای تشخیص چهره استفاده می شود. اگر شروع به خواندن راجع به CNN ها کنید ، به سرعت چالش ImageNet را برخواهید خورد ، پروژه ای که برای نشان دادن پیشرفته ترین مدل ها و کمک به محققان برای دستیابی به داده های تصویری با کیفیت بالا آغاز شده است. تمام تیم های برتر یادگیری عمیق در جهان به این رقابت می پیوندد ، اما هر بار CNN است که مقام اول را کسب می کند.
CNN مفهومی دشوار برای درک می باشد. اگر تاکنون تلاش کرده اید که در مورد این شبکه ها اطلاعات کسب کنید ، لطفاً نظر خود را بیان کرده و به اشتراک بگذارید.
CNN ها دارای چندین لایه مختلف هستند که اولین مورد آن ها لایه کانولوشنی است. برای تجسم این لایه ، مجموعه ای از چراغ قوه های مساوی با فاصله را تصور کنید که همه به طور مستقیم در یک دیوار می درخشند. هر چراغ قوه به دنبال یک الگوی دقیقاً مشابه از طریق فرآیندی به نام کانولوشن است. منطقه جستجوی چراغ قوه در جای خود ثابت است ، و توسط دایره منحصر به فرد نور تابیده شده روی دیوار محدود می شود. کل مجموعه چراغ قوه یک فیلتر را تشکیل می دهد ، که می تواند داده های مکان الگوی داده شده را به عنوان خروجی بدهد. یک CNN معمولاً از چندین فیلتر به طور موازی استفاده می کند و هر یک از آن ها برای الگویی متفاوت در تصویر اسکن می کنند. بنابراین کل لایه کانولوشنی یک شبکه ۳ بعدی از این چراغ قوه ها است.
اتصال برخی نقاط مبهم
– یک سری فیلترها لایه اول را تشکیل می دهند ، به نام لایه کانولوشنی. وزن و بایاس در این لایه اثربخشی فرآیند فیلتر را تعیین می کند.
– هر چراغ قوه نشان دهنده یک نورون واحد است. به طور معمول ، نورون ها در یک لایه فعال یا آتش می شوند. از طرف دیگر ، سلول های عصبی در لایه کانولوشن ، الگوهای را از طریق کانولوشن جستجو می کنند. نورون های موجود در فیلترهای مختلف الگوهای مختلفی را جستجو می کنند و بنابراین ورودی را به طور متفاوتی پردازش می کنند.
– بر خلاف شبکه هایی که تاکنون دیدیم که در آن هر نورون در یک لایه به هر نورون در لایه های مجاور متصل است ، یک CNN دارای اثر چراغ قوه ای است. یک نورون کانولوشنی تنها به نورون های ورودی که بر روی آن “تابیده” متصل می شود.
ورودی کانولوشنی سپس برای فعال سازی به لایه بعدی ارسال می شود. شبکه های CNN از پس انتشار برای آموزش استفاده می کنند ، اما از آنجا که از موتور ویژه ای به نام RELU برای فعال سازی استفاده می شود ، شبکه ها از مشکل محو شدگی گرادیان رنج نمی برند.
در برنامه های دنیای واقعی ، غلظت تصویر منجر به ۱۰۰ ها و میلیون ها وزن و بایاس می شود ، که این تأثیر منفی بر عملکرد دارد. بنابراین پس از RELU ، فعالیت ها به طور معمول در یک لایه مجاور جمع می شوند تا ابعاد کاهش یابد. پس از آن ، معمولاً یک لایه تماما متصل وجود دارد که به عنوان طبقه بندی کننده عمل می کند.
CNN هایی که در حال استفاده هستند معمولاً دارای معماری با لایه های مکرر هستند. مجموعه ۱ یک لایه کانولوشنی است که به دنبال آن یک RELU است. این مجموعه می تواند چند بار تکرار شود ، و ساختار تکرار شده توسط یک لایه استحکام دنبال می شود. این فرم های ترکیبی حاصل مجموعه ۲ را تنظیم می کنند ، که چند بار نیز تکرار می شود. ساختار حاصل نهایی سپس در انتها به یک لایه کاملاً متصل وصل می شود. این معماری به شبکه اجازه می دهد تا بطور مداوم الگوهای پیچیده ای را از نمونه های ساده بسازد ، همگی ضمن کاهش هزینه های محاسبات با کاهش ابعاد.
CNN ها ابزاری قدرتمند هستند ، اما یک اشکال وجود دارد – آن ها برای آموزش به ۱۰ میلیون میلیون نقطه داده دارای برچسب نیاز دارند. آن ها همچنین باید با GPU آموزش ببینند تا این روند در مدت زمان معقول انجام شود.
منبع Youtube
یک نظر
دنبال کنید : برترین چارچوب های یادگیری عمیق که در سال 2022 باید با آن آشنا باشید - مجله شهاب