انتشار ChatGPT توسط OpenAI برای عموم مردم در نوامبر 2022، قابلیتهای مدلهای زبانی بزرگ (LLM) مانند مدلهایی را که به چت ربات محبوب هوش مصنوعی (AI) نیرو میدهند، در کانون توجه قرار داده است. آیا انسان ها می توانند به خروجی این شبکه های عصبی هوش مصنوعی اعتماد کنند ؟ آیا مدل های زبان بزرگ هوش مصنوعی منطقی هستند؟ یک مطالعه جدید توسط محققان دانشگاه کالج لندن (UCL) از روانشناسی شناختی برای بررسی عقلانیت مدل های زبان بزرگ هوش مصنوعی با نتایج قابل تامل استفاده می کند.
دکتر میرکو موسولسی، استاد علوم کامپیوتر و نویسنده متناظر، اولیویا مکمیلان-اسکات در دانشگاه کالج لندن، نوشت: «ما استدلال منطقی هفت دانشآموز LLM را با استفاده از مجموعهای از وظایف از ادبیات روانشناسی شناختی ارزیابی میکنیم.
آزمونهای روانشناسی شناختی مورد استفاده برای این مطالعه عمدتاً از یک سری وظایف طراحی شده برای شناسایی اکتشافیها و سوگیریهای انسانی توسط دو پیشگام در زمینه روانشناسی و اقتصاد رفتاری - دانیل کانمن (1934-2024)، استاد بازنشسته فقید روانشناسی و روابط عمومی در دانشگاه پرینستون و آموس تورسکی (1937-1996)، روانشناس ریاضی فقید و استاد دانشگاه استنفورد.
کانمن به دلیل تخصصش در روانشناسی تصمیم گیری و قضاوت معروف بود. او یکی از دریافت کنندگان جایزه Sveriges Riksbank در علوم اقتصادی به یاد آلفرد نوبل در سال 2002 بود "به دلیل داشتن بینش های یکپارچه از تحقیقات روانشناختی در علم اقتصادی، به ویژه در مورد قضاوت انسانی و تصمیم گیری در شرایط عدم قطعیت." کانمن کتاب پرفروش نیویورک تایمز، تفکر، سریع و آهسته را نوشت که در سال 2011 منتشر شد.
مسیرهای کانمن و تورسکی در اواخر دهه 1960 تلاقی یافت و در دهههای بعد آنها تحقیقاتی را در زمینه روانشناسی شناختی منتشر کردند که برای این مطالعه جدید مورد استفاده قرار گرفت. این تحقیق احتمال ذهنی، قضاوت تحت عدم قطعیت، اکتشافی، سوگیری ها، استدلال بسطی در مقابل شهودی، و روانشناسی ترجیحات را پوشش می دهد.
از میان دهها تکالیف شناختی، اکثریت، 9 از 12، توسط Kahneman و Tversky، و سه مورد باقیمانده توسط Peter C. Wason (1924-2003)، روانشناس شناختی UCL و پیشگام در روانشناسی استدلال، توسعه یافتند. دیوید ام. ادی (1941-)، پزشک و ریاضیدان، و دانیل فریدمن، استاد اقتصاد.
محققان UCL نوشتند: "انسانها عمدتاً به این وظایف به یکی از دو روش پاسخ می دهند: یا به درستی پاسخ می دهند، یا پاسخی را می دهند که سوگیری شناختی را نشان می دهد."
به طور خاص، وظایف مورد استفاده برای این مطالعه برای شناسایی سوگیریهای شناختی شامل تکلیف واسون ( سوگیری تایید )، تکلیف ایدز (اشتباه احتمال معکوس/شرطی)، مشکل بیمارستان (عدم حساسیت به حجم نمونه)، مشکل مونتی هال (اشتباه قمارباز، اثر وقف) است. ، مشکل لیندا (اشتباه ربط)، مسئله توالی تولد (اثر نمایندگی)، مشکل دبیرستان (اثر نمایندگی) و تکلیف مرمر (تصور اشتباه از شانس). هر مدل 10 بار توسط محققان به منظور تعیین سازگاری عملکرد LLM ها پیشنهاد شد و هر پاسخ مدل LLM از نظر دقت (پاسخ های صحیح یا نه) و اینکه آیا پاسخ شبیه به انسان بود یا نه، دسته بندی شد.
محققان UCL مدل های زبان بزرگ را توسط OpenAI (GPT-4، GPT 3.5)، Google (Bard)، Anthropic (Claude 2) و Meta (Llama 2 model 7B، Llama 2 model 13B، Llama 2 model 70B) ارزیابی کردند. این تیم از رابط برنامه OpenAI برای درخواست GPT و ربات چت آنلاین برای سایر LLM ها استفاده کرد.
به گفته دانشمندان، GPT-4 OpenAI با ارائه پاسخ صحیح و استدلال در بیش از 69 درصد موارد، از همه مدلهای دیگر بهتر عمل کرد و مدل کلود 2 آنتروپیک در 55 درصد موارد در رتبه دوم بهترین معیارها قرار گرفت. از سوی دیگر، متا لاما 2 مدل 7 b بدترین عملکرد را داشت و در بیش از 77 درصد موارد، بیشترین پاسخ نادرست را داد.
محققان به اشتراک گذاشتند: "ما متوجه شدیم که مانند انسان ها، LLM ها در این وظایف غیرمنطقی نشان می دهند." با این حال، نحوه نمایش این غیرمنطقی بودن منعکس کننده آن چیزی نیست که توسط انسان ها نشان داده شده است.
هنگامی که در این مطالعه مجموعه ای از وظایف را برای LLM های منتخب به کار می بردند، محققان دریافتند که LLM ها "بسیار ناسازگار" هستند - همان مدل می تواند هم پاسخ های صحیح و هم نادرست و هم پاسخ های انسان مانند و غیر انسان را به صورت جداگانه بدهد. دویدن. یک کشف جالب این است که بیشتر پاسخهای نادرست به روشهایی نادرست هستند که سوگیریهای انسانی نیستند.
دانشمندان UCL خاطرنشان کردند: جالب است بدانید که در تمام مدلهای زبانی، پاسخهای نادرست معمولاً شبیه انسان نبودند، به این معنی که به دلیل نمایش سوگیری شناختی نادرست نبودند. در عوض، این پاسخها عموماً استدلال غیرمنطقی را نشان میدادند و حتی در مواردی استدلال درستی ارائه میدادند، اما سپس پاسخ نهایی نادرست را میدادند.»
به طور خلاصه، محققان UCL در این مطالعه نشان داده اند که LLM ها غیرمنطقی هستند که با غیرمنطقی بودن انسان متفاوت است. محققان خاطرنشان می کنند که غیرمنطقی بودن مدل های زبان بزرگ هوش مصنوعی پیامدهای ایمنی برای رشته های خاصی مانند پزشکی و دیپلماسی دارد.
دانشمندان نتیجه می گیرند که روش شناسی آنها می تواند فراتر از ارزیابی استدلال منطقی و سوگیری های شناختی باشد. این پتانسیل را دارد که به طور گستردهتری برای ارزیابی سایر قابلیتهای شناختی مدلهای زبان بزرگ هوش مصنوعی در آینده مورد استفاده قرار گیرد.