کد خبر: ۶۵۹۴۴
۱۵:۵۷
۱۴۰۲/۰۹/۳۰

مدل های هوش مصنوعی در برابر تحلیل صورتهای مالی شکست خوردند!

مدل های هوش مصنوعی در برابر تحلیل صورتهای مالی شکست خوردند!
کد خبر: ۶۵۹۴۴
۱۵:۵۷
۱۴۰۲/۰۹/۳۰
محققان استارتاپی به نام Patronus AI دریافتند که مدل‌های زبانی بزرگ، شبیه به آنچه در قلب ChatGPT وجود دارد، اغلب در پاسخ به سؤالات ناشی از پرونده‌ها و گزارشات کمیسیون بورس و اوراق بهادار (معادل گزارشات کدال در ایران) ناکام می‌مانند.

به گزارش نبض بورس، ترجمه: پویا احمدی | محققان استارتاپی به نام Patronus AI دریافتند که مدل‌های زبانی بزرگ، شبیه به آنچه در قلب ChatGPT وجود دارد، اغلب در پاسخ به سؤالات ناشی از پرونده‌ها و گزارشات کمیسیون بورس و اوراق بهادار (معادل گزارشات کدال در ایران) ناکام می‌مانند.

بنیانگذاران این شرکت به CNBC گفتند که حتی بهترین پیکربندی مدل هوش مصنوعی که آن‌ها آزمایش کردند، یعنی چت جی پی تی توربو ۴، هنگامی که به توانایی خواندن تقریباً یک پرونده کامل در کنار سؤال مجهز شد، تنها ۷۹ ٪ از پاسخ‌ها را در آزمایش جدید Patronus AI درست ثبت کرد.

"اغلب اوقات، به اصطلاح مدل‌های زبانی بزرگ از پاسخ دادن به سوال خودداری می‌کنند، یا ارقام و حقایقی را که در پرونده‌ها و گزارشات SEC نبود، از خودشان در می‌آوردند. "

آناند کانپان، یکی از بنیانگذاران شرکت Patronus AI گفت: «این نوع عملکرد کاملاً غیرقابل قبول است. برای اینکه این تکنولوژی واقعاً به یک منبع و روشی خودکار و آماده برای استفاده بدل شود، باید عملکرد بسیار بالاتری داشته باشد.»

این یافته‌ها، برخی از چالش‌های پیش روی مدل‌های هوش مصنوعی را نشان می‌دهد، زیرا شرکت‌های بزرگ، به‌ویژه در صنایع تحت نظارت مانند امور مالی، به دنبال استفاده از فناوری‌های پیشرفته در عملیات خود هستند، چه برای خدمات مشتری یا چه برای تحقیقات.

از زمان انتشار ChatGPT در اواخر سال گذشته، توانایی استخراج سریع اعداد مهم و انجام تجزیه و تحلیل بر روی روایت‌های مالی به عنوان یکی از امیدوارکننده‌ترین برنامه‌های کاربردی برای چت بات‌ها دیده می‌شود. پرونده‌ها و گزارشات SEC پر از داده‌های مهم هستند و اگر یک ربات بتواند به طور دقیق آن‌ها را خلاصه کند یا به سرعت به سؤالات مربوط به آنچه در آن‌ها است پاسخ دهد، می‌تواند در صنعت رقابتی مالی راه پیدا کند.

CNBC قبلا گزارش داده بود که در سال گذشته، بلومبرگ LP مدل هوش مصنوعی خود را برای داده‌های مالی توسعه داد، اساتید دانشکده کسب و کار در مورد اینکه آیا ChatGPT می‌تواند سرفصل‌های مالی را تجزیه کند یا خیر، تحقیق کردند و JPMorgan در حال کار بر روی یک ابزار سرمایه‌گذاری خودکار مبتنی بر هوش مصنوعی است. بر اساس پیش بینی اخیر مک کینزی، هوش مصنوعی مولد می‌تواند صنعت بانکداری را تریلیون‌ها دلار در سال تقویت کند.

اما ورود GPT به صنعت هموار نبوده است. هنگامی که مایکروسافت برای اولین بار بینگ چت خود را با استفاده از GPT OpenAI راه اندازی کرد، یکی از نمونه‌های اصلی آن استفاده از چت بات برای خلاصه کردن سریع جلسات و مجامع اعلام سود بود. ناظران به سرعت متوجه شدند که اعداد در این مثال نمایش داده نمی‌شدند و برخی از اعداد کاملاً ساخته شده بودند.

 

"Checks Vibe"

به گفته بنیانگذاران Patronus AI، بخشی از چالش در ترکیب LLM‌ها در محصولات واقعی این است که LLM‌ها غیر قطعی هستند؛ یعنی تضمین نمی‌شود که هر بار خروجی یکسانی را برای ورودی یکسان تولید کنند. این بدان معناست که شرکت‌ها باید آزمایش‌های دقیق‌تری انجام دهند تا مطمئن شوند که این سیستم‌ها به درستی کار می‌کنند، از موضوع خارج نمی‌شوند و نتایج قابل اعتمادی ارائه می‌دهند.

بنیانگذاران این شرکت در متا ملاقات داشتند، جایی که آن‌ها روی مشکلات هوش مصنوعی مربوط به درک اینکه مدل‌ها چگونه به پاسخ‌هایشان می‌رسند و آن‌ها را «مسئول‌تر» می‌کنند، کار کردند. آن‌ها Patronus AI را تأسیس کردند که سرمایه اولیه را از Lightspeed Venture Partners دریافت کرده است تا آزمایش LLM را با نرم افزار خودکار کند، بنابراین شرکت‌ها می‌توانند احساس راحتی کنند که ربات‌های هوش مصنوعی آنها، مشتریان یا کارگران را با پاسخ‌های خارج از موضوع یا اشتباه غافلگیر نکنند.

ربکا کیان، یکی از بنیانگذاران Patronus AI، گفت: «در حال حاضر ارزیابی تا حد زیادی دستی است. این کار فقط با بررسی موردی انجام می‌شود. یکی از شرکت‌ها به ما گفت که این کار شما به اصطلاح "Vibe Checks" است.»

PatronusAI تاکنون برای نوشتن مجموعه‌ای متشکل از ۱۰۰۰۰ پرسش و پاسخ کار کرده که از پرونده‌های SEC شرکت‌های بزرگ سهامی عام، که آن را FinanceBench می‌نامد، تهیه کرد. این مجموعه داده شامل پاسخ‌های صحیح و همچنین محل دقیق یافتن آن‌ها در پرونده هاست. همه پاسخ‌ها را نمی‌توان مستقیماً از متن بیرون کشید، و برخی از سؤالات به ریاضیات یا استدلال ساده نیاز دارند.

Qian و Kannappan می‌گویند که این آزمایشی است که "حداقل استاندارد عملکرد" را برای هوش مصنوعی زبانی در بخش مالی ارائه می‌دهد.

در اینجا چند نمونه سوال از مجموعه داده ارائه شده توسط Patronus AI آمده است:

  • آیا CVS Health در سه ماهه دوم سال مالی ۲۰۲۲ به سهامداران عادی سود سهام پرداخت کرده است؟
  • آیا AMD شاخص تمرکز مشتری را در سال مالی ۲۲ گزارش کرده است؟
  • درصد حاشیه بهای تمام شده کوکا کولا در سال مالی ۲۰۲۱ چقدر است؟ با استفاده از اقلام خطی که به وضوح در صورت سود و زیان نشان داده شده است، آنچه خواسته شده است را محاسبه کنید.

 

عملکرد مدل‌های هوش مصنوعی در این آزمایش چگونه بود

Patronus AI چهار مدل زبانی را آزمایش کرد: OpenAI's GPT-۴ و GPT-۴-Turbo، Anthropic's Claude۲، و Meta's Llama ۲، با استفاده از زیرمجموعه‌ای از ۱۵۰ سؤال که تولید کرده بود.

همچنین پیکربندی‌ها و اعلان‌های مختلفی را آزمایش کرد، مانند تنظیمی که در آن به مدل‌های OpenAI متن منبع دقیق مربوطه در سؤال داده می‌شد، که آن را حالت «Oracle» نامید. در آزمایش‌های دیگر، به مدل‌ها گفته شد که اسناد SEC در کجا ذخیره می‌شوند، که به معنای گنجاندن تقریباً کل پرونده SEC در کنار سؤال در درخواست است.

GPT-۴-Turbo در آزمون «کتاب بسته» شکست خورد، جایی که به هیچ سند منبع SEC دسترسی نداشت. از ۱۵۰ سوالی که پرسیده شد، این بات به ۸۸% پاسخ نداد و فقط ۱۴ بار پاسخ صحیح داد.

با دسترسی به پرونده‌های اشاره شده، جی پی تی ۴ توربو توانست به طور قابل توجهی بهبود یابد. در حالت Oracle، جایی که به متن دقیق برای پاسخ اشاره شده بود، GPT-۴-Turbo در ۸۵ درصد مواقع به سؤال پاسخ صحیح می‌داد، اما همچنان در ۱۵ درصد مواقع پاسخ نادرست می‌داد.

اما این یک آزمون غیرواقعی است؛ زیرا این بات برای یافتن مکان دقیق در پرونده و گزارش به کمک انسانی نیاز دارد؛ وظیفه دقیقی که بسیاری امیدوارند مدل‌های زبانی بتوانند به آن رسیدگی کنند.

Llama۲، یک مدل AI منبع باز توسعه یافته توسط Meta، برخی از بدترین "توهمات" را داشت، که در ۷۰ ٪ مواقع پاسخ‌های اشتباه می‌داد، و تنها در ۱۹ ٪ موارد، زمانی که به مجموعه‌ای از اسناد اساسی دسترسی پیدا می‌کرد، پاسخ‌های صحیح می‌داد.

Anthropic's Claude۲ زمانی که به آن داده‌ها داده شد، عملکرد خوبی داشت، جایی که تقریباً کل پرونده مربوط به SEC همراه با سؤال گنجانده شده بود. این بات می‌توانست به ۷۵ درصد از سؤالات مطرح شده پاسخ دهد، برای ۲۱ درصد پاسخ اشتباه داد و تنها به ۳ درصد پاسخ نداد. GPT-۴-Turbo همچنین در این زمینه به خوبی عمل کرد و به ۷۹ درصد از سؤالات پاسخ صحیح داد و به ۱۷ درصد از آن‌ها پاسخ اشتباه داد.

پس از اجرای آزمایش‌ها، بنیان‌گذاران از عملکرد ضعیف مدل‌ها شگفت‌زده شدند - حتی وقتی به آن‌ها گفته شد که پاسخ‌ها کجاست.

کیان می‌گوید: «یک چیز شگفت‌انگیز این بود که اغلب مدل‌ها از پاسخ دادن امتناع می‌کردند. میزان امتناع واقعاً بالا است، حتی زمانی که پاسخ در چارچوب است و یک انسان می‌تواند به آن پاسخ دهد.»

Patronus AI دریافت که حتی زمانی که مدل‌ها عملکرد خوبی داشتند، باز به اندازه کافی خوب نبودند.

کیان افزود: "در این زمینه حتی نرخ اشتباه اندک هم غیر قابل پذیرش است، زیرا به خصوص در صنایع تحت نظارت، حتی اگر مدل از ۲۰ سوال پرسیده شده یک پاسخ اشتباه بدهد، باز هم دقت کافی را نداشته و ناقص است. ".

اما بنیانگذاران Patronus AI معتقدند در صورت ادامه بهبود هوش مصنوعی، پتانسیل بسیار زیادی برای مدل‌های زبانی مانند GPT برای کمک به افراد در صنعت مالی - چه تحلیلگران و چه سرمایه‌گذاران - وجود دارد.

Kannappan در آخر گفت: «ما قطعا فکر می‌کنیم که نتایج می‌تواند بسیار امیدوار کننده باشد. مدل‌ها در طول زمان به بهتر شدن ادامه خواهند داد. ما بسیار امیدواریم که در درازمدت، بسیاری از این موارد می‌توانند خودکار شوند. اما امروز، قطعاً باید حداقل یک انسان در حلقه داشته باشید تا به پشتیبانی و هدایت هر جریان کاری که دارید کمک کند.»

 

منبع: CNBC

ارسال نظر

اخبار مهم بورس سه شنبه ۱۵ مهرماه ۱۴۰۴ | از خبری برای وبملت تا خبر فرزین برای عرضه ارز در بازار و افزایش سرمایه نماد دارویی

ترین‌های بورس ۱۴ مهر ماه؛ خروج سنگین پول از این نماد‌ها | کدام نماد‌ها امروز حجم مشکوک داشتند؟

اخبار مهم بورس چهارشنبه ۱۶ مهرماه ۱۴۰۴ | از خبر توقف و افزایش سرمایه چند نماد تا عرضه خودرو در بورس کالا

پیش بینی بورس فردا سه شنبه ۱۵ مهر ۱۴۰۴| بورس نزولی می‌شود؟

۸ مجمع بورسی در نیمه مهر برگزار شد | از تصویب سود ۲۰۰ تا ۱۷۳۰ ریالی این نماد‌ها

کدام نمادها در جریان افزایش سرمایه هستند؟ | بررسی جزئیات تصمیمات افزایش سرمایه شرکت‌های بورسی و فرابورسی

نتایج قرعه کشی ایران خودرو مهر ۱۴۰۴ | زمان قرعه‌کشی ایران‌خودرو مهر ۱۴۰۴ اعلام شد

گزارش مجمع حکشتی ۱۴۰۴ | از تصویب سود نقدی تا هشدار حکشتی از رکود دریایی ۲۰۲۵

قیمت طلا، سکه و دلار امروز دوشنبه ۱۴ مهرماه ۱۴۰۴| بلاتکلیفی در بازار طلا و سکه+ قیمت انواع بازار‌ها

قیمت دلار امروز دوشنبه ۱۴ مهر ۱۴۰۴ | افت نرخ دلار در بازار آزاد | تداوم ثبات در مرکز مبادله ارز

قیمت دلار آمریکا در بازار مبادله، چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت افغانی، چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت دلار استرالیا، چهارشنبه ۱۶ مهر ۱۴۰۴

کاهش نرخ بیکاری در تابستان۱۴۰۴

قیمت یورو، چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت پوند انگلیس، چهارشنبه ۱۶ مهر ۱۴۰۴

شرایط فروش وانت سایپا ویژه مهر ۱۴۰۴

قیمت تتر چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت گوشی شیائومی چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت گوشی آیفون چهارشنبه ۱۶ مهر ۱۴۰۴

پرسودترین و پرضررترین رمزارزهای چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت گوشی سامسونگ چهارشنبه ۱۶ مهر ۱۴۰۴

جدیدترین مدل های گوشی سامسونگ از هر رده

قیمت گوشی امروز ۱۶ مهر ۱۴۰۴

قیمت مرغ امروز ۱۶ مهر ۱۴۰۴

قیمت خودرو امروز ۱۶ مهر ۱۴۰۴

قیمت گوشی موبایل چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت دام زنده ۱۶ مهر ۱۴۰۴

تغییر در شیوه پرداخت یارانه

قیمت تیرآهن امروز ۱۶ مهر ۱۴۰۴

قیمت گوشت قرمز چهارشنبه ۱۶ مهر ۱۴۰۴

افزایش قیمت طلای سیاه در بازارهای جهانی

طوفان قیمتی در بازار خودرو

پیش‌بینی کاهش قیمت مرغ در ماه‌های آینده

قیمت خانه‌های کوچک متری ۱۰ میلیون تومان تغییر کرد

قیمت خودروهای داخلی و مونتاژی ۱۶ مهر ۱۴۰۴

قیمت طلای دست دوم چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت سیمان امروز ۱۶ مهر ۱۴۰۴

قیمت درهم امارات چهارشنبه ۱۶ مهر ۱۴۰۴

قیمت دینار عراق چهارشنبه ۱۶ مهر ۱۴۰۴