در هوش مصنوعی، مدل‌های کوچکتر و ارزان‌تر بیشتر مورد توجه قرار می‌گیرند

18 آگوست, 2024 تازه ها, تازه های هوش مصنوعی نظری بدهید

سالهاست غول‌های فناوری مانند گوگل و استارت‌آپ‌هایی مانند OpenAI برای ساخت مدل‌های هوش مصنوعی بزرگ‌تر و پرهزینه‌تر با استفاده از حجم عظیمی از داده‌های آنلاین رقابت می‌کنند. این فناوری که در ربات‌های چت مانند ChatGPT مستقر شده است، می‌تواند طیف گسترده‌ای از پرسش‌های پیچیده، از نوشتن کد و برنامه‌ریزی سفر گرفته تا پیش‌نویس غزل‌های شکسپیر درباره بستنی را مدیریت کند. مارک مک‌کواد روی استراتژی متفاوتی شرط‌بندی می‌کند. Arcee.AI، استارت‌آپی که او سال گذشته تأسیس کرد، به شرکت‌ها کمک می‌کند تا یک رویکرد رو به رشد محبوب – و بسیار کوچک‌تر – برای هوش مصنوعی آموزش دهند و راه‌اندازی کنند: مدل‌های زبانی کوچک. نرم‌افزار Arcee به جای تلاش برای انجام هر کاری که ChatGPT می‌تواند انجام دهد، به انجام مجموعه‌ای محدودتر از وظایف روزانه شرکتی کمک می‌کند – مانند ساخت سرویسی که مثلاً فقط سؤالات مربوط به مالیات را ارائه می‌کند – بدون نیاز به داده‌های زیادی. مک‌کواد گفت: «من می‌گویم ۹۹ درصد موارد استفاده تجاری، احتمالاً لازم نیست بدانید چه کسی مدال طلای المپیک را در سال ۱۹۶۸ برد. صنعتی که بزرگتر باشد همیشه برای هوش مصنوعی بهتر است. استارت‌آپ‌ها با میلیاردها سرمایه مخاطره‌آمیز، یکدیگر را برای توسعه مدل‌های زبان بزرگ قدرتمندتر برای پشتیبانی از ربات‌های چت هوش مصنوعی و سایر خدمات، با هم پیش‌بینی کرده‌اند که مدیر اجرایی آنتروپیک، داریو آمودی، پیش‌بینی کرده است که در نهایت ۱۰۰ میلیارد دلار برای آموزش مدل‌ها در مقایسه با ۱۰۰ میلیون دلار امروز هزینه خواهد داشت.

این تفکر مطمئناً هنوز وجود دارد، اما استارت‌آپ‌هایی مانند Arcee، Sakana AI و Hugging Face اکنون با پذیرش رویکردی کوچک‌تر و مقرون به صرفه‌تر، سرمایه‌گذاران و مشتریان را جذب می‌کنند. شرکت های بزرگ فناوری نیز یاد می گیرند که کوچک فکر کنند. Google، Meta Platforms Inc.، OpenAI و Anthropic متعلق به Alphabet Inc. اخیراً نرم‌افزارهایی را منتشر کرده‌اند که فشرده‌تر و زیرک‌تر از مدل‌های پرچم‌دار زبان‌های بزرگ یا LLM‌هایشان است. شتاب در مدل‌های کوچک توسط تعدادی از عوامل هدایت می‌شود، از جمله پیشرفت‌های فن‌آوری جدید، آگاهی روزافزون از نیازهای انرژی عظیم مرتبط با مدل‌های زبان بزرگ و فرصتی در بازار برای ارائه طیف متنوع‌تری از گزینه‌های هوش مصنوعی برای استفاده‌های مختلف به مشاغل. مدل‌های زبانی کوچک نه تنها برای ساخت شرکت‌های فناوری ارزان‌تر هستند، بلکه برای مشتریان تجاری نیز استفاده می‌کنند و محدودیت پذیرش را پایین می‌آورند. با توجه به اینکه سرمایه گذاران به طور فزاینده ای نگران هزینه های بالا و بازده نامشخص سرمایه گذاری های هوش مصنوعی هستند، شرکت های فناوری بیشتری ممکن است این مسیر را انتخاب کنند.

توماس وولف، یکی از بنیانگذاران و مدیر ارشد علمی Hugging Face که نرم افزار هوش مصنوعی تولید می کند و میزبان آن برای شرکت های دیگر است، گفت: «به طور کلی، مدل های کوچک بسیار منطقی هستند. “فقط برای مدت طولانی است که ما واقعا نمی دانستیم چگونه آنها را خوب درست کنیم.”

smaller models of ai are more interesting

ولف گفت که Hugging Face تکنیک‌هایی مانند استفاده از مجموعه‌های داده با دقت بیشتر و آموزش مدل‌های هوش مصنوعی را به شیوه‌ای کارآمدتر بهبود بخشیده است. در ماه جولای، این استارت‌آپ سه مدل کوچک همه‌منظوره و منبع باز به نام SmolLM را منتشر کرد که به اندازه کافی جمع و جور هستند تا مستقیماً روی تلفن‌های هوشمند و لپ‌تاپ‌ها استفاده شوند. این امر می‌تواند اجرای نرم‌افزار هوش مصنوعی را سریع‌تر، ارزان‌تر و ایمن‌تر از اتصال به سرویس ابری راه دور کند، همانطور که برای مدل‌های بزرگ‌تر ضروری است. تقاضای واضح برای جایگزین‌های کوچک‌تر وجود دارد. Arcee.AI که ماه گذشته یک دور سری A 24 میلیون دلاری جمع آوری کرد، یک مدل کوچک را آموزش داد که می تواند به سوالات مالیاتی تامسون رویترز پاسخ دهد و یک ربات چت مربی شغلی برای Guild، یک شرکت ارتقا دهنده مهارت، ساخت.

هر دو شرکت این مدل‌ها را از طریق حساب‌های خدمات وب آمازون خود اجرا می‌کنند. Guild که با کارمندان Target و Disney کار می‌کند، بیش از یک سال پیش شروع به استفاده از یک مدل زبان بزرگ مانند مدل‌هایی که ChatGPT OpenAI را تقویت می‌کردند، برای ارائه مشاوره شغلی به افراد بیشتر از آن شروع کرد. توانست با تیم مربیان انسانی خود. به گفته مت بیشاپ، رئیس AI گیلد، اگرچه ChatGPT کار خوبی انجام داد، اما حسی را که شرکت به دنبال آن بود نداشت. بیشاپ گفت که مکالمات ناشناس بین مربیان انسانی و کاربران آن بسیار کمتر از کل داده های تغذیه شده به یک LLM معمولی است. او گفت که این سرویس «واقعاً برند، لحن ما، اخلاق ما را تجسم می‌دهد»، و پاسخ‌ها در مقایسه با ChatGPT در ۹۳ درصد مواقع توسط کارکنان Guild ترجیح داده می‌شوند. مک‌کواد گفت، مدل کوچک‌تر و واقعاً بر روی کار و مورد استفاده قرار می‌گیرد، «بر خلاف داشتن مدلی که می‌تواند همه کارها و هر کاری را که لازم است انجام دهد. OpenAI، مانند دیگر شرکت‌های بزرگ هوش مصنوعی، در حال تنوع بخشیدن به پیشنهادات خود است. تلاش برای رقابت در همه جبهه ها ماه گذشته، OpenAI نسخه “مینی” مدل پرچمدار GPT-4o خود را به عنوان گزینه ای کارآمدتر و مقرون به صرفه برای مشتریان معرفی کرد. Olivier Godement، رئیس محصول OpenAI’s API، گفت که انتظار دارد توسعه دهندگان از GPT-4o mini برای مدیریت خلاصه سازی، کدگذاری اولیه و استخراج داده ها استفاده کنند. در عین حال، مدل‌های بزرگ‌تر و گران‌تر شرکت همچنان برای کارهای پیچیده‌تر مورد استفاده قرار می‌گیرند. گودمن قبلاً به بلومبرگ گفته بود: «البته ما می‌خواهیم مدل‌های مرزی را ادامه دهیم، و همه چیز را به اینجا فشار دهیم. «اما ما همچنین می‌خواهیم بهترین مدل‌های کوچک را در آنجا داشته باشیم». مک‌کواد گفت که این اصطلاح «ذهنی» است، اما برای او به سیستم‌های هوش مصنوعی اطلاق می‌شود که ۷۰ میلیارد یا کمتر پارامتر دارند، که اشاره‌ای به تعداد کل متغیرهایی است که توسط یک مدل در طول فرآیند آموزش انتخاب می‌شود. با این معیار، مدل‌های SmolLM Hugging Face که از ۱۳۵ میلیون تا ۱٫۷ میلیارد پارامتر متغیر است، عملاً میکروسکوپی هستند. (اگر این اعداد هنوز بزرگ به نظر می رسند، در نظر بگیرید که مدل لاما AI متا در سه اندازه است که از ۸ میلیارد تا ۴۰۰ میلیارد پارامتر متغیر است.) مانند بسیاری از جنبه های دیگر حوزه سریع هوش مصنوعی، استانداردهای مدل های کوچک نیز به شرح زیر است. به احتمال زیاد تغییر خواهد کرد دیوید ها، یکی از بنیان‌گذاران و مدیر اجرایی استارت‌آپ مدل کوچک ساکانا مستقر در توکیو، گفت مدل‌های هوش مصنوعی که چند سال پیش بسیار بزرگ به نظر می‌رسیدند، امروز «متواضع» به نظر می‌رسند. ها گفت: «اندازه همیشه نسبی است.

منبع : Yahoo