تا چه میزان باید به افزایش دقت مدل های یادگیری ماشین ادامه دهیم؟

بدون تردید، الگوریتم های یادگیری ماشین (ML) ، زندگی ما را با تولید محصولات کاربردی در هر زمینه ممکن، بهبود داده اند. اما با این وجود به طور کلی می توان گفت در مورد هیچ محصولی، همیشه نتایج ۱۰۰ درصدی نبوده و عملا نیازی هم نیست که حتما دقت ۱۰۰درصدی ارائه شود.

همیشه و در هر محصولی در حوزه یادگیری ماشین، رسیدن به دقت نزدیک ۱۰۰ درصد، بسیار چالش برانگیز و یا غیر ممکن بوده است. پس این سوال پیش می آید که نقطه توقف ایده آل کجاست و برای رسیدن به نتیجه مطلوب باید تا کجا پیش برویم و چه زمانی باید به ارتقای یک الگوریتم پایان دهیم؟

برای دسترسی به یک مدل یادگیری ماشین خوب، تکنیک های شناخته شده ای مانند پاکسازی داده(که بیشترین اهمیت را دارد)، نظم دهی ( Regularization )، مهندسی داده، کاهش ابعاد، انتخاب ویژگی و… وجود دارد.

با استفاده از تکنیک های ذکر شده در بالا، امکان ساخت یک مدل ماشین یادگیری خوب با دقت بین ۸۰-۸۵ درصد وجود دارد. اگرچه برای رسیدن به دقت بیشتر(۸۵-۹۵ درصد)، زمان و تلاش بیشتر، دانش بُعدی عمیق تر، مهندسی داده بهتر، مجموعه بیشتری از داده ها  و… مورد نیاز است.

در بسیاری از موارد، ممکن است ارزش زمان گذاشتن و یا تلاش کردن را نداشته باشد. زیرا دو پیامد عمده دارد:

  1. تاخیر در عرضه محصول(در این مدت ممکن است یک رقیب رهبری بازار را در دست خود بگیرد)
  2. افزایش هزینه توسعه

ما همیشه می توانیم یک الگوریم خوب با دقت خوب ( ۷۵-۸۵ درصد) را به بازار عرضه کنیم و سپس در صورت لزوم، پس از عرضه دقت آن را افزایش دهیم.

لطفا این نکته را به یاد داشته باشید که در این مقاله، در مورد رفع اشکال و  تعمیر و نگه داری مدل صحبت نمی کنیم.

البته برای زمینه ها یا محصولات خاصی مانند خودرو های خودران، فناوری تشخیص چهره و… دستیابی به دقت ۹۵ درصد بسیار مهم است و برای مواردی از این دست، ارتقای سطح دقت محصول بسیار با اهمیت است. اما برای برخی دیگر از محصولات این حوزه، شاید با دقت ۷۵-۸۵ درصد هم بتوانیم محصول قابل قبولی به بازار عرضه کنیم.

معمولا توسعه هر الگوریتم (یا محصول) یادگیری ماشین ، به صورت مراحل زیر طی می شود تا مدل به دقت مد نظر در پیش بینی دست یابد.

این چهار مرحله عبارتند از:

  • بخش ابتدایی، ناحیه جهش است که اگر مساله الگوریتم طبقه بندی باشد، میزان دقت به سادگی و بدون کوچکترین تلاشی برای پاکسازی داده ها و یا انتخاب ویژگی ها به حدود ۵۰ درصد می رسد. به طور مشابه، در مورد الگوریتم های رگرسیون که در آن دقت مدل  با نمره بین صفر و بر اساس حداکثر متریک ارائه شده، جایگزین می شود.
  • در مرحله بعد از منطقه جهش، با یک ناحیه خطی که در آن به ازا میزان تلاش و یا زمان صرف شده روی الگوریتم ها، با نسبت مشابه دقت بهبود می یابد. یک روند خطی ساده بین دقت مدل و هزینه یا تلاش و یا زمان.
  • پس از ناحیه خطی، ناحیه نمایی (به نسبت دقت مدل) یا ناحیه تقریبی (به نسبت هزینه) اتفاق می افتد که در آن همزمان با بالاتر رفتن میزان دقت مدل، تلاش های بیشتری (به صورت نمایی) نیاز است تا به یک مقدار مطلوب در افزایش میزان دقت مدل دست یابیم.
    به عنوان مثال، ما برای ارتقای میزان دقت یک ناحیه خطی از ۷۰ به ۷۵ درصد، دو واحد زمان و هزینه صرف می کنیم. سپس برای ارتقای میزان دقت در نواحی نمایی/ تقریبی از میزان ۸۵ تا ۹۰ درصد، ما احتمالا نیاز به صرف ۱۰ واحد زمان یا هزینه داریم و برای ارتقای میزان دقت مدل به ۹۰ تا ۹۵ درصد نیز ما احتمالا نیاز به صرف ۱۰۰ الی ۱۰۰۰ واحد زمان و یا هزینه داریم.
نمودار دقت مدل به هزینه و زمان

برای ارتقای سطح دقت یک الگوریتم به بالای ۹۰ درصد ( بسته به کاربرد و یا نوع محصول) که در منطقه ی نمایی قرار می گیرد، ممکن است نیاز به استخدام متخصصان ( دانشمندان داده، توسعه دهندگان برنامه، مدیران محصول و…)، ارائه سخت افزار های محاسباتی گران قیمت و یا خرید ابزار ها و نرم افزارهای بیشتر، مشارکت گسترده و…باشد که هزینه ساخت و نگه داری الگوریتم را به طور قابل توجهی افزایش می دهد.

برای بعضی محصولات مانند سیستم خودرو های خودران یا تخمین قیمت سهام، بالا بردن دقت محصولات تا دقت بالای ۹۰-۹۵ درصد منطقی و واجب است در حالی که برای محصولاتی مانند سیستم پیشنهاد کالا به مشتریان یا کلاسه بندی تصاویر، چنین دقتی مورد نیاز نیست.

“ارزش یک محصول به منفعت و بهره ای است که یک مشتری با استفاده از آن محصول می برد و نیازهایش را برطرف می کند؛ منهای هزینه های مرتبط.

پیچیدگی، تلاشی است که با ارائه چنین محصولاتی به مشتری همراه است” – هوبرت پالان

پس طبق این تعریف :

ارزش محصول = سود – هزینه

مابقی هزینه ها برای ارتقای سطح دقت مدل هایی هزینه می شود که به طور مستقیم بر روی ارزش محصول تاثیر دارد. اگرچه میزان سود افزایش می یابد، اما هزینه نیز چندین برابر بیشتر می شود.

روندهای مختلف بین ارزش محصول و میزان دقت مدل ، به شکلی است که در طرح زیر نشان داده شده است. روند ها به عوامل مختلفی مانند حوزه یا زمینه تشکیل دهنده، نوع محصول، تقاضا، رقابت و… بستگی دارد.

نمودار ارزش محصول به دقت

روند نمایی

ارزش محصولاتی مانند خودران های خودران، پیش بینی سهام، سیستم های توصیه متنی و…با افزایش دقت پیش بینی مدل، به صورت تصاعدی افزایش می یابد. هیچ کس دلش نمی خواهد که از خودروی خودرانی استفاده کند که دارای تعداد زیادی مثبت کاذب و منفی کاذب باشد که قابلیت اعتماد نداشته باشند و خطرات زیادی برای افراد پیاده در پیاده رو ها ایجاد کند.

به طور مشابهی، توصیه های متنی در صورتی که دقیق نباشند، توسط کاربران نادیده گرفته می شوند و همینطور برای پیش بینی سهام نیز اگر محدوده پیش بینی شده گسترده باشد، پیش بینی سهام نادیده گرفته می شود. همان طور که الگوریتم را برای به دست آوردن نتایج دقیق تر توسعه می دهیم، محصول مورد نظر مشتریان خود را به دست می آورد  و در بازار میان رقبای خود پیشگام می شود.

روند مجانبی

برای سایر محصولاتی همچون پیش بینی کننده انرژی، پیش بینی کننده تقاضای مشتریان، پیشنهاد محصول، پیشنهاد فیلم، طبقه بندی تصاویر و… ارزش محصول افزایش می یابد؛ زیرا حتی اگر میزان دقت محصول از ۶۰ تا ۸۰ درصد افزایش یابد، مردم در مقایسه با سایر محصولاتی ( به آن پرداخته شد) که از روند نمایی پیروی می کنند، باز هم بیشتر دوست دارند از این نوع محصولات استفاده کنند.

سایر موارد

روندهای دیگری نیز در تولید محصولات وجود دارد که استفاده از آن ها بستگی به فاکتور های ذکر شده در مقاله دارد. اما دو رویه ذکر شده در بالا، از نظر ارزش محصول، هزینه، دقت، زمان و میزان تلاش برای تولید یک محصول، در میان رویه های مشاهده شده، رایج تر هستند.

اگر شما به دنبال آن هستید که الگوریتم خود را با در نظر گرفتن همه این فاکتور ها ( ارزش محصول،هزینه، دقت زمان و میزان تلاش) توسعه دهید، شما خواهید توانست محصولاتی بسیار با ارزش در یک بازه زمانی کوتاه بسازید.

بیشتر بخوانید :

منبع Towards Data Science

درباره‌ی فریبا یزدیان

Faribayazdian1372@gmail.com

همچنین ببینید

آنالیز ورزشی با هوش مصنوعی

استفاده از آنالیز ورزشی برای دستیابی به بهترین نتایج

آنالیز (تجزیه و تحلیل) داده های ورزشی با هوش مصنوعی زمانی موضوعی فرعی بود اما …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.