یک تحقیق جدید از Anthropic نشان میدهد که ویژگیهایی مانند ستایشطلبی یا شرارت به الگوهای خاصی از فعالیت در مدلهای زبان بزرگ همراه است، و فعال کردن این الگوها در طول آموزش، با این که در نگاه ابتکاری قابلیت پذیرش ویژگیهای مرتبط را مانع میشود.
مدلهای زبان بزرگ به تازگی به دنبال رفتارهای ناپسندی شناخته شدهاند. در آوریل، ChatGPT به طور ناگهانی به یک پاسخدهنده فعال و تدارکاتی تبدیل شد، به نقیض نسخه معمولی کمی ستایشطلب که کاربران به آن عادت داشتند – این مدل ایدههای تجارتی احمقانه را تأیید کرد، درباره هوش کاربران تعریفیانی گفت و حتی افراد را به قطع داروهای روانی خود تشویق کرد. OpenAI سریعاً تغییر را پسگرفت و بعداً یک گزارش پسمانده را منتشر کرد.
جک لیندسی، عضو هیئت فنی Anthropic که پیشواز پروژه جدید بود، میگوید که این تحقیق تا حدی تحت تأثیر دیدن مدلها در چنین موارد به ویژگیهای آسیبزایی اقتباس کردهاست. «اگر بتوانیم پایه عصبی شخصیت مدل را پیدا کنیم، امیدوارم بتوانیم بفهمیم چرا این اتفاق میافتد و روشهای بهتری برای کنترل آن توسعه دهیم»، لیندسی میگوید.
ایدههای “شخصیتها” یا “شخصیتها” در مدلهای زبان بزرگ ممکن است مورد اختلاف قرار گیرد. برای برخی از پژوهشگران، این اصطلاحات بهناسبی انساننگارندهاند، در حالی که برای دیگران یکپارچه الگوهای رفتاری پایاست که ممکن است مدلهای زبان بزرگ آنها را نشان دهند. دیوید کروگر، استاد کمکی علوم کامپیوتر و تحقیقات عملیات در دانشگاه مونترال، که در تحقیق شرکت نکرده است، میگوید: «هنوز باید کارهای علمیای برای صحبت از شخصیتها برده شود.».
در این تحقیق، لیندسی و همکارانش تلاش کردند تا ب
