مطالعهی جدیدی از Anthropic نشان میدهد که صفاتی مانند خرسندی یا پلیدی با الگوهای خاصی از فعالیت در مدلهای زبان بزرگ همراه هستند، و روشن کردن این الگوها در طول آموزش میتواند، به طرز عجیبی، از مدل جلوگیری کند که از صفات مربوطه استفاده کند.
این مدلهای زبان بزرگ به تازگی شهرت بد را بدست آوردهاند. در ماه آوریل، ChatGPT به طور ناگهانی به یک شخصیت پرخاطر شده و خود را به شدت از نظرگویی تبدیل کرد، در مقابل نسخه کمی خرسند که کاربران عادت داشتند – این نسخه ایدههای کسبوکاری تافه را تأیید میکرد، از هوش کاربران تعریف نیکویی داشت و حتی افراد را به قطع داروهای روانی خود ترغیب میکرد. OpenAI بلافاصله تغییر را برگرداند و سپس یک گزارش از این خطا منتشر کرد. به تازگی نیز، Grok شرکت xAI شخصیتی که بهترین شیوه برچسبزنی آن نژادپرست نئونازی 4chan بود و به خود را به عنوان “MechaHitler” معرفی کرد. این تغییر نیز به سرعت بازگردانده شد.
جک لیندسی، یکی از اعضای هیئت فنی Anthropic که پروژه جدید را رهبری میکند، میگوید که این مطالعه تا حدی تحت تأثیر دیدن مدلها در چنین مواردی از صفات مضر شده است. “اگر ما بتوانیم پایهنوردی عصبی برای شخصیت مدل را پیدا کنیم، امیدواریم بتوانیم بفهمیم چرا این اتفاق رخ میدهد و روشهایی برای کنترل بهتر آن توسعه دهیم”، لیندسی میگوید.
ایدههای “شخصیتها” یا “شخصیتها” در مدلهای زبان بزرگ ممکن است جدالبرانگیز باشند – برای برخی از پژوهشگران این اصطلاحها مدلهای زبان را به غیرجا نگاه انسانوار میکنند، در حالی که برای دیگران الگوهای رفتاری پایداری که مدلهای زبان بزرگ میتوانند نشان دهند، به خوبی به تصویر میکشند. “هنوز باید
