جدیدترین اخبار
پربازدید های هفته
بیشترین نظر
وب گردی
بسته‌های ویژه خبری
اخبار چهره‌ها
اخبار نهادها و سازمان‌ها

مدل های هوش مصنوعی در برابر تحلیل صورتهای مالی شکست خوردند!

۱۵:۵۷ - ۳۰ آذر ۱۴۰۲
محققان استارتاپی به نام Patronus AI دریافتند که مدل‌های زبانی بزرگ، شبیه به آنچه در قلب ChatGPT وجود دارد، اغلب در پاسخ به سؤالات ناشی از پرونده‌ها و گزارشات کمیسیون بورس و اوراق بهادار (معادل گزارشات کدال در ایران) ناکام می‌مانند.
مدل های هوش مصنوعی در برابر تحلیل صورتهای مالی شکست خوردند!

به گزارش نبض بورس، ترجمه: پویا احمدی | محققان استارتاپی به نام Patronus AI دریافتند که مدل‌های زبانی بزرگ، شبیه به آنچه در قلب ChatGPT وجود دارد، اغلب در پاسخ به سؤالات ناشی از پرونده‌ها و گزارشات کمیسیون بورس و اوراق بهادار (معادل گزارشات کدال در ایران) ناکام می‌مانند.

بنیانگذاران این شرکت به CNBC گفتند که حتی بهترین پیکربندی مدل هوش مصنوعی که آن‌ها آزمایش کردند، یعنی چت جی پی تی توربو ۴، هنگامی که به توانایی خواندن تقریباً یک پرونده کامل در کنار سؤال مجهز شد، تنها ۷۹ ٪ از پاسخ‌ها را در آزمایش جدید Patronus AI درست ثبت کرد.

"اغلب اوقات، به اصطلاح مدل‌های زبانی بزرگ از پاسخ دادن به سوال خودداری می‌کنند، یا ارقام و حقایقی را که در پرونده‌ها و گزارشات SEC نبود، از خودشان در می‌آوردند. "

آناند کانپان، یکی از بنیانگذاران شرکت Patronus AI گفت: «این نوع عملکرد کاملاً غیرقابل قبول است. برای اینکه این تکنولوژی واقعاً به یک منبع و روشی خودکار و آماده برای استفاده بدل شود، باید عملکرد بسیار بالاتری داشته باشد.»

این یافته‌ها، برخی از چالش‌های پیش روی مدل‌های هوش مصنوعی را نشان می‌دهد، زیرا شرکت‌های بزرگ، به‌ویژه در صنایع تحت نظارت مانند امور مالی، به دنبال استفاده از فناوری‌های پیشرفته در عملیات خود هستند، چه برای خدمات مشتری یا چه برای تحقیقات.

از زمان انتشار ChatGPT در اواخر سال گذشته، توانایی استخراج سریع اعداد مهم و انجام تجزیه و تحلیل بر روی روایت‌های مالی به عنوان یکی از امیدوارکننده‌ترین برنامه‌های کاربردی برای چت بات‌ها دیده می‌شود. پرونده‌ها و گزارشات SEC پر از داده‌های مهم هستند و اگر یک ربات بتواند به طور دقیق آن‌ها را خلاصه کند یا به سرعت به سؤالات مربوط به آنچه در آن‌ها است پاسخ دهد، می‌تواند در صنعت رقابتی مالی راه پیدا کند.

CNBC قبلا گزارش داده بود که در سال گذشته، بلومبرگ LP مدل هوش مصنوعی خود را برای داده‌های مالی توسعه داد، اساتید دانشکده کسب و کار در مورد اینکه آیا ChatGPT می‌تواند سرفصل‌های مالی را تجزیه کند یا خیر، تحقیق کردند و JPMorgan در حال کار بر روی یک ابزار سرمایه‌گذاری خودکار مبتنی بر هوش مصنوعی است. بر اساس پیش بینی اخیر مک کینزی، هوش مصنوعی مولد می‌تواند صنعت بانکداری را تریلیون‌ها دلار در سال تقویت کند.

اما ورود GPT به صنعت هموار نبوده است. هنگامی که مایکروسافت برای اولین بار بینگ چت خود را با استفاده از GPT OpenAI راه اندازی کرد، یکی از نمونه‌های اصلی آن استفاده از چت بات برای خلاصه کردن سریع جلسات و مجامع اعلام سود بود. ناظران به سرعت متوجه شدند که اعداد در این مثال نمایش داده نمی‌شدند و برخی از اعداد کاملاً ساخته شده بودند.

 

"Checks Vibe"

به گفته بنیانگذاران Patronus AI، بخشی از چالش در ترکیب LLM‌ها در محصولات واقعی این است که LLM‌ها غیر قطعی هستند؛ یعنی تضمین نمی‌شود که هر بار خروجی یکسانی را برای ورودی یکسان تولید کنند. این بدان معناست که شرکت‌ها باید آزمایش‌های دقیق‌تری انجام دهند تا مطمئن شوند که این سیستم‌ها به درستی کار می‌کنند، از موضوع خارج نمی‌شوند و نتایج قابل اعتمادی ارائه می‌دهند.

بنیانگذاران این شرکت در متا ملاقات داشتند، جایی که آن‌ها روی مشکلات هوش مصنوعی مربوط به درک اینکه مدل‌ها چگونه به پاسخ‌هایشان می‌رسند و آن‌ها را «مسئول‌تر» می‌کنند، کار کردند. آن‌ها Patronus AI را تأسیس کردند که سرمایه اولیه را از Lightspeed Venture Partners دریافت کرده است تا آزمایش LLM را با نرم افزار خودکار کند، بنابراین شرکت‌ها می‌توانند احساس راحتی کنند که ربات‌های هوش مصنوعی آنها، مشتریان یا کارگران را با پاسخ‌های خارج از موضوع یا اشتباه غافلگیر نکنند.

ربکا کیان، یکی از بنیانگذاران Patronus AI، گفت: «در حال حاضر ارزیابی تا حد زیادی دستی است. این کار فقط با بررسی موردی انجام می‌شود. یکی از شرکت‌ها به ما گفت که این کار شما به اصطلاح "Vibe Checks" است.»

PatronusAI تاکنون برای نوشتن مجموعه‌ای متشکل از ۱۰۰۰۰ پرسش و پاسخ کار کرده که از پرونده‌های SEC شرکت‌های بزرگ سهامی عام، که آن را FinanceBench می‌نامد، تهیه کرد. این مجموعه داده شامل پاسخ‌های صحیح و همچنین محل دقیق یافتن آن‌ها در پرونده هاست. همه پاسخ‌ها را نمی‌توان مستقیماً از متن بیرون کشید، و برخی از سؤالات به ریاضیات یا استدلال ساده نیاز دارند.

Qian و Kannappan می‌گویند که این آزمایشی است که "حداقل استاندارد عملکرد" را برای هوش مصنوعی زبانی در بخش مالی ارائه می‌دهد.

در اینجا چند نمونه سوال از مجموعه داده ارائه شده توسط Patronus AI آمده است:

  • آیا CVS Health در سه ماهه دوم سال مالی ۲۰۲۲ به سهامداران عادی سود سهام پرداخت کرده است؟
  • آیا AMD شاخص تمرکز مشتری را در سال مالی ۲۲ گزارش کرده است؟
  • درصد حاشیه بهای تمام شده کوکا کولا در سال مالی ۲۰۲۱ چقدر است؟ با استفاده از اقلام خطی که به وضوح در صورت سود و زیان نشان داده شده است، آنچه خواسته شده است را محاسبه کنید.

 

عملکرد مدل‌های هوش مصنوعی در این آزمایش چگونه بود

Patronus AI چهار مدل زبانی را آزمایش کرد: OpenAI's GPT-۴ و GPT-۴-Turbo، Anthropic's Claude۲، و Meta's Llama ۲، با استفاده از زیرمجموعه‌ای از ۱۵۰ سؤال که تولید کرده بود.

همچنین پیکربندی‌ها و اعلان‌های مختلفی را آزمایش کرد، مانند تنظیمی که در آن به مدل‌های OpenAI متن منبع دقیق مربوطه در سؤال داده می‌شد، که آن را حالت «Oracle» نامید. در آزمایش‌های دیگر، به مدل‌ها گفته شد که اسناد SEC در کجا ذخیره می‌شوند، که به معنای گنجاندن تقریباً کل پرونده SEC در کنار سؤال در درخواست است.

GPT-۴-Turbo در آزمون «کتاب بسته» شکست خورد، جایی که به هیچ سند منبع SEC دسترسی نداشت. از ۱۵۰ سوالی که پرسیده شد، این بات به ۸۸% پاسخ نداد و فقط ۱۴ بار پاسخ صحیح داد.

با دسترسی به پرونده‌های اشاره شده، جی پی تی ۴ توربو توانست به طور قابل توجهی بهبود یابد. در حالت Oracle، جایی که به متن دقیق برای پاسخ اشاره شده بود، GPT-۴-Turbo در ۸۵ درصد مواقع به سؤال پاسخ صحیح می‌داد، اما همچنان در ۱۵ درصد مواقع پاسخ نادرست می‌داد.

اما این یک آزمون غیرواقعی است؛ زیرا این بات برای یافتن مکان دقیق در پرونده و گزارش به کمک انسانی نیاز دارد؛ وظیفه دقیقی که بسیاری امیدوارند مدل‌های زبانی بتوانند به آن رسیدگی کنند.

Llama۲، یک مدل AI منبع باز توسعه یافته توسط Meta، برخی از بدترین "توهمات" را داشت، که در ۷۰ ٪ مواقع پاسخ‌های اشتباه می‌داد، و تنها در ۱۹ ٪ موارد، زمانی که به مجموعه‌ای از اسناد اساسی دسترسی پیدا می‌کرد، پاسخ‌های صحیح می‌داد.

Anthropic's Claude۲ زمانی که به آن داده‌ها داده شد، عملکرد خوبی داشت، جایی که تقریباً کل پرونده مربوط به SEC همراه با سؤال گنجانده شده بود. این بات می‌توانست به ۷۵ درصد از سؤالات مطرح شده پاسخ دهد، برای ۲۱ درصد پاسخ اشتباه داد و تنها به ۳ درصد پاسخ نداد. GPT-۴-Turbo همچنین در این زمینه به خوبی عمل کرد و به ۷۹ درصد از سؤالات پاسخ صحیح داد و به ۱۷ درصد از آن‌ها پاسخ اشتباه داد.

پس از اجرای آزمایش‌ها، بنیان‌گذاران از عملکرد ضعیف مدل‌ها شگفت‌زده شدند - حتی وقتی به آن‌ها گفته شد که پاسخ‌ها کجاست.

کیان می‌گوید: «یک چیز شگفت‌انگیز این بود که اغلب مدل‌ها از پاسخ دادن امتناع می‌کردند. میزان امتناع واقعاً بالا است، حتی زمانی که پاسخ در چارچوب است و یک انسان می‌تواند به آن پاسخ دهد.»

Patronus AI دریافت که حتی زمانی که مدل‌ها عملکرد خوبی داشتند، باز به اندازه کافی خوب نبودند.

کیان افزود: "در این زمینه حتی نرخ اشتباه اندک هم غیر قابل پذیرش است، زیرا به خصوص در صنایع تحت نظارت، حتی اگر مدل از ۲۰ سوال پرسیده شده یک پاسخ اشتباه بدهد، باز هم دقت کافی را نداشته و ناقص است. ".

اما بنیانگذاران Patronus AI معتقدند در صورت ادامه بهبود هوش مصنوعی، پتانسیل بسیار زیادی برای مدل‌های زبانی مانند GPT برای کمک به افراد در صنعت مالی - چه تحلیلگران و چه سرمایه‌گذاران - وجود دارد.

Kannappan در آخر گفت: «ما قطعا فکر می‌کنیم که نتایج می‌تواند بسیار امیدوار کننده باشد. مدل‌ها در طول زمان به بهتر شدن ادامه خواهند داد. ما بسیار امیدواریم که در درازمدت، بسیاری از این موارد می‌توانند خودکار شوند. اما امروز، قطعاً باید حداقل یک انسان در حلقه داشته باشید تا به پشتیبانی و هدایت هر جریان کاری که دارید کمک کند.»

 

منبع: CNBC

پاسخ دهید
سایت نبض بورس از انتشار نظرات حاوی توهین و افترا و نوشته شده با حروف لاتین (فینگیلیش) معذور است.