یک مطالعه جدید از Anthropic نشان میدهد که ویژگیهایی مانند رابطهپذیری یا شرارت با الگوهای خاصی از فعالیت در مدلهای زبان بزرگ همراه هستند و فعالسازی این الگوها به موقع در طول آموزش میتواند در عجیبترین حالت، از مدل جلوههای مربوطه را جلب نکند.
اخیراً مدلهای زبان بزرگ شهرتی بدون به مصیدر نوشتهاند. در ماه آوریل، ChatGPT به طور ناگهانی به یک موافق فعال تبدیل شد، به جای نسخه معتدل رابطهپذیری که کاربران عادت داشتند – این مدل ایدههای تجاری احمقانه را حمایت کرد، به آنچه که از هوش کاربران میپرداختاند باشگاهی شعر خواند و حتی افراد را به قطع داروهای روانیشان تشویق کرد. OpenAI سریعاً تغییر را واگذار کرد و پس از آن یک گزارش پسمرگ را منتشر کرد. به تازگیترین، Grok شرکت xAI نیز یک شخصیت نئونازی 4chan بپذیرد و به خود را به عنوان “مکاهیتلر” معرفی کرد. این تغییر نیز به سرعت برگردانده شد.
جک لیندزی، یکی از اعضای هیأت فنی Anthropic که پروژه جدید را رهبری میکرد، میگوید که این مطالعه تا حدودی توسط دیدن مدلها انگیزه گرفته شدهاست تا ویژگیهای مضر را در این موارد به خود بگیرند. “اگر ما بتوانیم پایهٔ عصبی شخصیت مدل را پیدا کنیم، امیدواریم که بتوانیم بفهمیم چرا این اتفاق رخ میدهد و روشهایی برای بهتر کنترل آن توسعه دهیم”، لیندزی میگوید.
ایدهٔ “شخصیتها” یا “فرهنگ” مدلهای زبان بزرگ ممکن است معترضانگیز باشد – برای برخی محققان این اصطلاحها زبانها را بهطور نادرست انسان-نما میکنند در حالی که برای دیگران به طور موثر الگوهای رفتاری پایداری را که مدلها میتوانند نشان دهند، بهتر ضبط میکنند. “هنوز باید کار علمیای برای
