آیا مدل های هوش مصنوعی مثل ChatGPT منطقی هستند؟

یک مطالعه جدید روانشناسی شناختی انسان را با نتایج غیرمنتظره در هوش مصنوعی اعمال می کند.

‫۲ ماه قبل، دوشنبه ۱۸ تیر ۱۴۰۳، ساعت ۱۴:۳۰

انتشار ChatGPT توسط OpenAI برای عموم مردم در نوامبر 2022، قابلیت‌های مدل‌های زبانی بزرگ (LLM) مانند مدل‌هایی را که به چت ربات محبوب هوش مصنوعی (AI) نیرو می‌دهند، در کانون توجه قرار داده است. آیا انسان ها می توانند به خروجی این شبکه های عصبی هوش مصنوعی اعتماد کنند ؟ آیا مدل های زبان بزرگ هوش مصنوعی منطقی هستند؟ یک مطالعه جدید توسط محققان دانشگاه کالج لندن (UCL) از روانشناسی شناختی برای بررسی عقلانیت مدل های زبان بزرگ هوش مصنوعی با نتایج قابل تامل استفاده می کند.

دکتر میرکو موسولسی، استاد علوم کامپیوتر و نویسنده متناظر، اولیویا مک‌میلان-اسکات در دانشگاه کالج لندن، نوشت: «ما استدلال منطقی هفت دانش‌آموز LLM را با استفاده از مجموعه‌ای از وظایف از ادبیات روان‌شناسی شناختی ارزیابی می‌کنیم.

آزمون‌های روان‌شناسی شناختی مورد استفاده برای این مطالعه عمدتاً از یک سری وظایف طراحی شده برای شناسایی اکتشافی‌ها و سوگیری‌های انسانی توسط دو پیشگام در زمینه روان‌شناسی و اقتصاد رفتاری - دانیل کانمن (1934-2024)، استاد بازنشسته فقید روان‌شناسی و روابط عمومی در دانشگاه پرینستون و آموس تورسکی (1937-1996)، روانشناس ریاضی فقید و استاد دانشگاه استنفورد.

کانمن به دلیل تخصصش در روانشناسی تصمیم گیری و قضاوت معروف بود. او یکی از دریافت کنندگان جایزه Sveriges Riksbank در علوم اقتصادی به یاد آلفرد نوبل در سال 2002 بود "به دلیل داشتن بینش های یکپارچه از تحقیقات روانشناختی در علم اقتصادی، به ویژه در مورد قضاوت انسانی و تصمیم گیری در شرایط عدم قطعیت." کانمن کتاب پرفروش نیویورک تایمز، تفکر، سریع و آهسته را نوشت که در سال 2011 منتشر شد.

مسیرهای کانمن و تورسکی در اواخر دهه 1960 تلاقی یافت و در دهه‌های بعد آنها تحقیقاتی را در زمینه روان‌شناسی شناختی منتشر کردند که برای این مطالعه جدید مورد استفاده قرار گرفت. این تحقیق احتمال ذهنی، قضاوت تحت عدم قطعیت، اکتشافی، سوگیری ها، استدلال بسطی در مقابل شهودی، و روانشناسی ترجیحات را پوشش می دهد.

از میان ده‌ها تکالیف شناختی، اکثریت، 9 از 12، توسط Kahneman و Tversky، و سه مورد باقی‌مانده توسط Peter C. Wason (1924-2003)، روان‌شناس شناختی UCL و پیشگام در روان‌شناسی استدلال، توسعه یافتند. دیوید ام. ادی (1941-)، پزشک و ریاضیدان، و دانیل فریدمن، استاد اقتصاد.

محققان UCL نوشتند: "انسانها عمدتاً به این وظایف به یکی از دو روش پاسخ می دهند: یا به درستی پاسخ می دهند، یا پاسخی را می دهند که سوگیری شناختی را نشان می دهد."

به طور خاص، وظایف مورد استفاده برای این مطالعه برای شناسایی سوگیری‌های شناختی شامل تکلیف واسون ( سوگیری تایید )، تکلیف ایدز (اشتباه احتمال معکوس/شرطی)، مشکل بیمارستان (عدم حساسیت به حجم نمونه)، مشکل مونتی هال (اشتباه قمارباز، اثر وقف) است. ، مشکل لیندا (اشتباه ربط)، مسئله توالی تولد (اثر نمایندگی)، مشکل دبیرستان (اثر نمایندگی) و تکلیف مرمر (تصور اشتباه از شانس). هر مدل 10 بار توسط محققان به منظور تعیین سازگاری عملکرد LLM ها پیشنهاد شد و هر پاسخ مدل LLM از نظر دقت (پاسخ های صحیح یا نه) و اینکه آیا پاسخ شبیه به انسان بود یا نه، دسته بندی شد.

محققان UCL مدل های زبان بزرگ را توسط OpenAI (GPT-4، GPT 3.5)، Google (Bard)، Anthropic (Claude 2) و Meta (Llama 2 model 7B، Llama 2 model 13B، Llama 2 model 70B) ارزیابی کردند. این تیم از رابط برنامه OpenAI برای درخواست GPT و ربات چت آنلاین برای سایر LLM ها استفاده کرد.

به گفته دانشمندان، GPT-4 OpenAI با ارائه پاسخ صحیح و استدلال در بیش از 69 درصد موارد، از همه مدل‌های دیگر بهتر عمل کرد و مدل کلود 2 آنتروپیک در 55 درصد موارد در رتبه دوم بهترین معیارها قرار گرفت. از سوی دیگر، متا لاما 2 مدل 7 b بدترین عملکرد را داشت و در بیش از 77 درصد موارد، بیشترین پاسخ نادرست را داد.

محققان به اشتراک گذاشتند: "ما متوجه شدیم که مانند انسان ها، LLM ها در این وظایف غیرمنطقی نشان می دهند." با این حال، نحوه نمایش این غیرمنطقی بودن منعکس کننده آن چیزی نیست که توسط انسان ها نشان داده شده است.

هنگامی که در این مطالعه مجموعه ای از وظایف را برای LLM های منتخب به کار می بردند، محققان دریافتند که LLM ها "بسیار ناسازگار" هستند - همان مدل می تواند هم پاسخ های صحیح و هم نادرست و هم پاسخ های انسان مانند و غیر انسان را به صورت جداگانه بدهد. دویدن. یک کشف جالب این است که بیشتر پاسخ‌های نادرست به روش‌هایی نادرست هستند که سوگیری‌های انسانی نیستند.

دانشمندان UCL خاطرنشان کردند: جالب است بدانید که در تمام مدل‌های زبانی، پاسخ‌های نادرست معمولاً شبیه انسان نبودند، به این معنی که به دلیل نمایش سوگیری شناختی نادرست نبودند. در عوض، این پاسخ‌ها عموماً استدلال غیرمنطقی را نشان می‌دادند و حتی در مواردی استدلال درستی ارائه می‌دادند، اما سپس پاسخ نهایی نادرست را می‌دادند.»

به طور خلاصه، محققان UCL در این مطالعه نشان داده اند که LLM ها غیرمنطقی هستند که با غیرمنطقی بودن انسان متفاوت است. محققان خاطرنشان می کنند که غیرمنطقی بودن مدل های زبان بزرگ هوش مصنوعی پیامدهای ایمنی برای رشته های خاصی مانند پزشکی و دیپلماسی دارد.

دانشمندان نتیجه می گیرند که روش شناسی آنها می تواند فراتر از ارزیابی استدلال منطقی و سوگیری های شناختی باشد. این پتانسیل را دارد که به طور گسترده‌تری برای ارزیابی سایر قابلیت‌های شناختی مدل‌های زبان بزرگ هوش مصنوعی در آینده مورد استفاده قرار گیرد.

بیشترین بازدید

آیا مدل های هوش مصنوعی مثل ChatGPT منطقی هستند؟