ناتوانی هوش مصنوعی در تجزیه تحلیل صورت های مالی بورس

ناتوانی هوش مصنوعی در تجزیه و تحلیل صورت های مالی کمیسیون بورس و اوراق بهادار

27 دسامبر, 2023 تازه ها, تازه های هوش مصنوعی نظری بدهید

محققان یک استارتاپ به نام Patronus AI دریافتند مدل های زبانی بزرگ، مشابه آنچه در قلب ChatGPT وجود دارد، اغلب نمی توانند به سوالات برگرفته از پرونده های کمیسیون بورس و اوراق بهادار پاسخ دهند.

موسسان این شرکت به CNBC گفتند که حتی بهترین پیکربندی مدل هوش مصنوعی که آن ها آزمایش کردند، یعنی GPT – ۴ – Turbo OpenAI، هنگامی که به توانایی خواندن تقریبا یک فایل کامل در کنار سوال مجهز بود، تنها ۷۹ درصد از پاسخ ها را درست در تست جدید هوش مصنوعی پاترونوس دریافت کرد.

اغلب اوقات، مدل های به اصطلاح بزرگ زبان از پاسخ دادن امتناع می کردند، یا ارقام و حقایقی را “توهم می زدند” که در پرونده های SEC نبودند. (SEC مخفف عبارت Securities & Exchange Commission و به معنی کمیسیون بورس و اوراق بهادار است)

آناند کاناپان، یکی از موسسان Patronus AI گفت: ” این نوع نرخ عملکرد کاملا غیرقابل قبول است.

این یافته ها برخی از چالش های پیش روی مدل های هوش مصنوعی را برجسته می کند؛ زیرا شرکت های بزرگ، به ویژه در صنایع قانونی مانند امور مالی، به دنبال ترکیب فن آوری پیشرفته در عملیات خود، چه برای خدمات مشتری و چه برای تحقیقات هستند.

قابلیت استخراج سریع اعداد مهم و انجام تحلیل روی گزارش های مالی از زمان انتشار ChatGPT در اواخر سال گذشته میلادی، یکی از امیدوارکننده ترین اپلیکیشن ها برای چت بات ها محسوب می شود. پرونده های SEC پر از داده های مهم هستند و اگر یک بات بتواند آن ها را به طور دقیق خلاصه کند یا به سرعت به سوالاتی در مورد آنچه در آن ها وجود دارد پاسخ دهد، می تواند به کاربر در صنعت مالی رقابتی کمک کند.

در سال گذشته، بلومبرگ LP مدل هوش مصنوعی خود را برای داده های مالی توسعه داد، اساتید دانشکده کسب وکار تحقیق کردند که آیا ChatGPT می تواند سرفصل های مالی را تجزیه کند یا خیر؛
CNBC قبلا گزارش داده بود که در حال کار روی یک ابزار سرمایه گذاری خودکار مبتنی بر هوش مصنوعی است. طبق پیش بینی اخیر مک کینزی، هوش مصنوعی می تواند صنعت بانکداری را تا تریلیون ها دلار در سال تقویت کند.

اما ورود GPT به این صنعت هموار نبوده است. وقتی مایکروسافت
یکی از مثال های اولیه آن، استفاده از چت بات برای خلاصه کردن سریع خبر درآمد بود. ناظران به سرعت متوجه شدند که اعداد و ارقام در نمونه مایکروسافت از بین رفته اند و برخی اعداد به طور کامل ساخته شده اند.

بررسی های احساسی (‘Vibe checks’)

یکی از بنیان گذاران Patronus AI می گوید: بخشی از چالش هنگام ترکیب LLM ها در محصولات واقعی، این است که LLM ها غیر قطعی هستند – آن ها تضمین نمی کنند که هر بار خروجی یکسانی برای همان ورودی تولید کنند. این بدان معنی است که شرکت ها باید آزمایش های دقیق تری انجام دهند تا مطمئن شوند که به درستی کار می کنند، از موضوع خارج نمی شوند و نتایج قابل اطمینانی ارائه می دهند.

موسسان در شرکت مادر فیس بوک متا ملاقات کردند؛ آن ها شرکت Patronus AI را تاسیس کردند که سرمایه اولیه را از شرکت Lightspeed Venture Partners دریافت کرده است تا آزمایش LLM را با نرم افزار خودکار کند، بنابراین شرکت ها می توانند احساس راحتی کنند که ربات های AI آن ها مشتریان یا کارگران را با پاسخ های خارج از موضوع یا اشتباه شگفت زده نخواهند کرد.

Patronus AI برای نوشتن مجموعه ای از بیش از ۱۰ هزار سوال و پاسخ برگرفته از پرونده های SEC از شرکت های بزرگ سهامی عام که آن ها را FinancialBench می نامد، تلاش کرد. مجموعه داده ها شامل پاسخ های صحیح و همچنین محل دقیق هر پرونده داده شده برای یافتن آن ها است. همه پاسخ ها را نمی توان مستقیما از متن استخراج کرد و برخی سوالات نیاز به ریاضیات یا استدلال سبک دارند.

کیان و کاناپه می گویند این آزمونی است که “حداقل استاندارد عملکرد” را برای هوش مصنوعی زبانی در بخش مالی ارائه می دهد.

در اینجا چند نمونه از سوالات در مجموعه داده ارائه شده توسط Patronus AI را مشاهده می کنید:

آیا CVS Health در سه ماهه دوم سال مالی ۲۰۲۲ به سهامداران عادی سود سهام پرداخت کرده است؟

آیا AMD تمرکز مشتریان را در سال مالی ۲۰۲۲ گزارش کرده است؟
حاشیه سود کوکاکولا چقدر است؟ با استفاده از آیتم های خطی که به وضوح در بیانیه درآمد نشان داده شده اند، آنچه را که پرسیده شده محاسبه کنید.

مدل های هوش مصنوعی در این آزمایش چگونه عمل کردند

هوش مصنوعی Patronus چهار مدل زبانی را آزمایش کرد: GPT – ۴ OpenAI و GPT – ۴ – Turbo، کلاود ۲ انویدیا و لامای ۲ متا با استفاده از زیرمجموعه ای از ۱۵۰ سوال که تولید کرده بود.

همچنین پیکربندی ها و دستورالعمل های مختلفی را آزمایش کرد، مانند یک تنظیمات که در آن به مدل های OpenAI متن منبع دقیق مربوطه در سوال داده می شد، که حالت “اوراکل” نامیده می شد. در آزمایش های دیگر، به مدل ها گفته شد که اسناد اصلی SEC کجا ذخیره می شوند، یا “زمینه طولانی” داده می شود، که به معنای شامل تقریبا یک پرونده کامل SEC در کنار سوال در فراخوان است.

ناتوانی هوش مصنوعی در تحلیل صورت های مالی بورس

GPT – ۴ – Turbo در تست “کتاب بسته” این استارتاپ شکست خورد، جایی که به هیچ سند منبع SEC دسترسی نداشت. این شرکت نتوانست به ۸۸ درصد از ۱۵۰ سوال مطرح شده پاسخ دهد و تنها ۱۴ بار پاسخ صحیح داد.

این قابلیت در زمان دسترسی به فایل های اصلی به طور قابل توجهی بهبود پیدا کرد. در حالت “اوراکل” که در آن به متن دقیق پاسخ اشاره شده بود، GPT – ۴ – Turbo در ۸۵ درصد مواقع به درستی به سوال پاسخ داد، اما در ۱۵ درصد مواقع باز هم پاسخ نادرست داد.

اما این یک آزمایش غیر واقعی است زیرا نیازمند ورودی انسانی برای یافتن مکان دقیق مربوطه در بایگانی است – کار دقیقی که بسیاری امیدوارند مدل های زبانی بتوانند به آن بپردازند.

Llama ۲، یک مدل هوش مصنوعی متن باز توسعه یافته توسط Meta، برخی از بدترین “توهمات” را داشت، که در ۷۰% مواقع پاسخ های اشتباه تولید می کرد، و پاسخ های درست تنها در ۱۹% مواقع، هنگامی که به مجموعه ای از اسناد اساسی دسترسی داده می شد.

کلود ۲ آنتروپ زمانی که “زمینه طولانی” داشت، عملکرد خوبی داشت، جایی که تقریبا کل پرونده مربوط به SEC به همراه سوال در آن گنجانده شده بود. این شرکت توانست به ۷۵ درصد سوالات مطرح شده پاسخ دهد، ۲۱ درصد پاسخ اشتباه داد و تنها به ۳ درصد پاسخ نداد. GPT – ۴ – Turbo نیز در زمینه طولانی مدت عملکرد خوبی داشت و به ۷۹ درصد از سوالات پاسخ صحیح داد و برای ۱۷ درصد از آن ها پاسخ اشتباه داد.

پس از انجام تست ها، موسسان از اینکه مدل ها تا چه حد ضعیف عمل می کنند، شگفت زده شدند – حتی زمانی که به پاسخ ها اشاره شد.

کیان گفت: ” یک نکته شگفت انگیز این بود که مدل ها اغلب از پاسخ دادن امتناع می کردند.

با این حال، حتی زمانی که مدل ها عملکرد خوبی داشتند، به اندازه کافی خوب نبودند.

کیان گفت: ” هیچ حاشیه ای برای خطا وجود ندارد که قابل قبول باشد، زیرا، به ویژه در صنایع تنظیم شده، حتی اگر مدل ۱ از ۲۰ بار پاسخ را اشتباه دریافت کند، باز هم دقت کافی را ندارد.”

اما بنیان گذاران هوش مصنوعی پاترونوس بر این باورند که اگر هوش مصنوعی به بهبود خود ادامه دهد، پتانسیل زیادی برای مدل های زبانی مانند GPT وجود دارد تا به افراد در صنعت مالی – چه تحلیل گران و چه سرمایه گذاران – کمک کند.

کاناپه گفت: ” ما قطعا فکر می کنیم که نتایج می توانند بسیار امیدوارکننده باشند. ما بسیار امیدواریم که در بلند مدت، بسیاری از این موارد بتوانند خودکار شوند. اما امروز، شما قطعا باید حداقل یک انسان در حلقه داشته باشید تا به پشتیبانی و هدایت هر جریان کاری که دارید کمک کند.”

یکی از نمایندگان OpenAI به دستورالعمل های استفاده این شرکت اشاره کرد که ارائه مشاوره مالی مناسب با استفاده از یک مدل OpenAI را بدون اینکه فرد واجد شرایط اطلاعات را بررسی کند، ممنوع می کند و از هر کسی که از یک مدل OpenAI در صنعت مالی استفاده می کند، می خواهد که یک تذکر به آن ها بدهد که از هوش مصنوعی و محدودیت های آن استفاده می شود. سیاست های استفاده از OpenAI همچنین می گوید که مدل های OpenAI برای ارائه مشاوره مالی به خوبی تنظیم نشده اند.

منبع : CNBC

امتیاز دهید!

ناتوانی هوش مصنوعی در تجزیه و تحلیل صورت های مالی کمیسیون بورس و اوراق بهادار

بررسی های احساسی (‘Vibe checks’)

مدل های هوش مصنوعی در این آزمایش چگونه عمل کردند

نوشته های مشابه

همچنین ببینید

دیدگاهتان را بنویسید لغو پاسخ