به گزارش نبض بورس، ترجمه: پویا احمدی | محققان استارتاپی به نام Patronus AI دریافتند که مدلهای زبانی بزرگ، شبیه به آنچه در قلب ChatGPT وجود دارد، اغلب در پاسخ به سؤالات ناشی از پروندهها و گزارشات کمیسیون بورس و اوراق بهادار (معادل گزارشات کدال در ایران) ناکام میمانند.
بنیانگذاران این شرکت به CNBC گفتند که حتی بهترین پیکربندی مدل هوش مصنوعی که آنها آزمایش کردند، یعنی چت جی پی تی توربو ۴، هنگامی که به توانایی خواندن تقریباً یک پرونده کامل در کنار سؤال مجهز شد، تنها ۷۹ ٪ از پاسخها را در آزمایش جدید Patronus AI درست ثبت کرد.
"اغلب اوقات، به اصطلاح مدلهای زبانی بزرگ از پاسخ دادن به سوال خودداری میکنند، یا ارقام و حقایقی را که در پروندهها و گزارشات SEC نبود، از خودشان در میآوردند. "
آناند کانپان، یکی از بنیانگذاران شرکت Patronus AI گفت: «این نوع عملکرد کاملاً غیرقابل قبول است. برای اینکه این تکنولوژی واقعاً به یک منبع و روشی خودکار و آماده برای استفاده بدل شود، باید عملکرد بسیار بالاتری داشته باشد.»
این یافتهها، برخی از چالشهای پیش روی مدلهای هوش مصنوعی را نشان میدهد، زیرا شرکتهای بزرگ، بهویژه در صنایع تحت نظارت مانند امور مالی، به دنبال استفاده از فناوریهای پیشرفته در عملیات خود هستند، چه برای خدمات مشتری یا چه برای تحقیقات.
از زمان انتشار ChatGPT در اواخر سال گذشته، توانایی استخراج سریع اعداد مهم و انجام تجزیه و تحلیل بر روی روایتهای مالی به عنوان یکی از امیدوارکنندهترین برنامههای کاربردی برای چت باتها دیده میشود. پروندهها و گزارشات SEC پر از دادههای مهم هستند و اگر یک ربات بتواند به طور دقیق آنها را خلاصه کند یا به سرعت به سؤالات مربوط به آنچه در آنها است پاسخ دهد، میتواند در صنعت رقابتی مالی راه پیدا کند.
CNBC قبلا گزارش داده بود که در سال گذشته، بلومبرگ LP مدل هوش مصنوعی خود را برای دادههای مالی توسعه داد، اساتید دانشکده کسب و کار در مورد اینکه آیا ChatGPT میتواند سرفصلهای مالی را تجزیه کند یا خیر، تحقیق کردند و JPMorgan در حال کار بر روی یک ابزار سرمایهگذاری خودکار مبتنی بر هوش مصنوعی است. بر اساس پیش بینی اخیر مک کینزی، هوش مصنوعی مولد میتواند صنعت بانکداری را تریلیونها دلار در سال تقویت کند.
اما ورود GPT به صنعت هموار نبوده است. هنگامی که مایکروسافت برای اولین بار بینگ چت خود را با استفاده از GPT OpenAI راه اندازی کرد، یکی از نمونههای اصلی آن استفاده از چت بات برای خلاصه کردن سریع جلسات و مجامع اعلام سود بود. ناظران به سرعت متوجه شدند که اعداد در این مثال نمایش داده نمیشدند و برخی از اعداد کاملاً ساخته شده بودند.
به گفته بنیانگذاران Patronus AI، بخشی از چالش در ترکیب LLMها در محصولات واقعی این است که LLMها غیر قطعی هستند؛ یعنی تضمین نمیشود که هر بار خروجی یکسانی را برای ورودی یکسان تولید کنند. این بدان معناست که شرکتها باید آزمایشهای دقیقتری انجام دهند تا مطمئن شوند که این سیستمها به درستی کار میکنند، از موضوع خارج نمیشوند و نتایج قابل اعتمادی ارائه میدهند.
بنیانگذاران این شرکت در متا ملاقات داشتند، جایی که آنها روی مشکلات هوش مصنوعی مربوط به درک اینکه مدلها چگونه به پاسخهایشان میرسند و آنها را «مسئولتر» میکنند، کار کردند. آنها Patronus AI را تأسیس کردند که سرمایه اولیه را از Lightspeed Venture Partners دریافت کرده است تا آزمایش LLM را با نرم افزار خودکار کند، بنابراین شرکتها میتوانند احساس راحتی کنند که رباتهای هوش مصنوعی آنها، مشتریان یا کارگران را با پاسخهای خارج از موضوع یا اشتباه غافلگیر نکنند.
ربکا کیان، یکی از بنیانگذاران Patronus AI، گفت: «در حال حاضر ارزیابی تا حد زیادی دستی است. این کار فقط با بررسی موردی انجام میشود. یکی از شرکتها به ما گفت که این کار شما به اصطلاح "Vibe Checks" است.»
PatronusAI تاکنون برای نوشتن مجموعهای متشکل از ۱۰۰۰۰ پرسش و پاسخ کار کرده که از پروندههای SEC شرکتهای بزرگ سهامی عام، که آن را FinanceBench مینامد، تهیه کرد. این مجموعه داده شامل پاسخهای صحیح و همچنین محل دقیق یافتن آنها در پرونده هاست. همه پاسخها را نمیتوان مستقیماً از متن بیرون کشید، و برخی از سؤالات به ریاضیات یا استدلال ساده نیاز دارند.
Qian و Kannappan میگویند که این آزمایشی است که "حداقل استاندارد عملکرد" را برای هوش مصنوعی زبانی در بخش مالی ارائه میدهد.
در اینجا چند نمونه سوال از مجموعه داده ارائه شده توسط Patronus AI آمده است:
Patronus AI چهار مدل زبانی را آزمایش کرد: OpenAI's GPT-۴ و GPT-۴-Turbo، Anthropic's Claude۲، و Meta's Llama ۲، با استفاده از زیرمجموعهای از ۱۵۰ سؤال که تولید کرده بود.
همچنین پیکربندیها و اعلانهای مختلفی را آزمایش کرد، مانند تنظیمی که در آن به مدلهای OpenAI متن منبع دقیق مربوطه در سؤال داده میشد، که آن را حالت «Oracle» نامید. در آزمایشهای دیگر، به مدلها گفته شد که اسناد SEC در کجا ذخیره میشوند، که به معنای گنجاندن تقریباً کل پرونده SEC در کنار سؤال در درخواست است.
GPT-۴-Turbo در آزمون «کتاب بسته» شکست خورد، جایی که به هیچ سند منبع SEC دسترسی نداشت. از ۱۵۰ سوالی که پرسیده شد، این بات به ۸۸% پاسخ نداد و فقط ۱۴ بار پاسخ صحیح داد.
با دسترسی به پروندههای اشاره شده، جی پی تی ۴ توربو توانست به طور قابل توجهی بهبود یابد. در حالت Oracle، جایی که به متن دقیق برای پاسخ اشاره شده بود، GPT-۴-Turbo در ۸۵ درصد مواقع به سؤال پاسخ صحیح میداد، اما همچنان در ۱۵ درصد مواقع پاسخ نادرست میداد.
اما این یک آزمون غیرواقعی است؛ زیرا این بات برای یافتن مکان دقیق در پرونده و گزارش به کمک انسانی نیاز دارد؛ وظیفه دقیقی که بسیاری امیدوارند مدلهای زبانی بتوانند به آن رسیدگی کنند.
Llama۲، یک مدل AI منبع باز توسعه یافته توسط Meta، برخی از بدترین "توهمات" را داشت، که در ۷۰ ٪ مواقع پاسخهای اشتباه میداد، و تنها در ۱۹ ٪ موارد، زمانی که به مجموعهای از اسناد اساسی دسترسی پیدا میکرد، پاسخهای صحیح میداد.
Anthropic's Claude۲ زمانی که به آن دادهها داده شد، عملکرد خوبی داشت، جایی که تقریباً کل پرونده مربوط به SEC همراه با سؤال گنجانده شده بود. این بات میتوانست به ۷۵ درصد از سؤالات مطرح شده پاسخ دهد، برای ۲۱ درصد پاسخ اشتباه داد و تنها به ۳ درصد پاسخ نداد. GPT-۴-Turbo همچنین در این زمینه به خوبی عمل کرد و به ۷۹ درصد از سؤالات پاسخ صحیح داد و به ۱۷ درصد از آنها پاسخ اشتباه داد.
پس از اجرای آزمایشها، بنیانگذاران از عملکرد ضعیف مدلها شگفتزده شدند - حتی وقتی به آنها گفته شد که پاسخها کجاست.
کیان میگوید: «یک چیز شگفتانگیز این بود که اغلب مدلها از پاسخ دادن امتناع میکردند. میزان امتناع واقعاً بالا است، حتی زمانی که پاسخ در چارچوب است و یک انسان میتواند به آن پاسخ دهد.»
Patronus AI دریافت که حتی زمانی که مدلها عملکرد خوبی داشتند، باز به اندازه کافی خوب نبودند.
کیان افزود: "در این زمینه حتی نرخ اشتباه اندک هم غیر قابل پذیرش است، زیرا به خصوص در صنایع تحت نظارت، حتی اگر مدل از ۲۰ سوال پرسیده شده یک پاسخ اشتباه بدهد، باز هم دقت کافی را نداشته و ناقص است. ".
اما بنیانگذاران Patronus AI معتقدند در صورت ادامه بهبود هوش مصنوعی، پتانسیل بسیار زیادی برای مدلهای زبانی مانند GPT برای کمک به افراد در صنعت مالی - چه تحلیلگران و چه سرمایهگذاران - وجود دارد.
Kannappan در آخر گفت: «ما قطعا فکر میکنیم که نتایج میتواند بسیار امیدوار کننده باشد. مدلها در طول زمان به بهتر شدن ادامه خواهند داد. ما بسیار امیدواریم که در درازمدت، بسیاری از این موارد میتوانند خودکار شوند. اما امروز، قطعاً باید حداقل یک انسان در حلقه داشته باشید تا به پشتیبانی و هدایت هر جریان کاری که دارید کمک کند.»
منبع: CNBC