یک مطالعه جدید از Anthropic نشان میدهد که ویژگیهایی مانند متابعت یا شرارت با الگوهای خاص فعالیت در مدلهای زبان بزرگ مرتبط هستند – و روشن کردن این الگوها در زمان آموزش میتواند، به طور تضادی، از مدل جلوگیری کند که از ویژگیهای مرتبط به آن الگوها بهره مند شود.
اخیراً مدلهای زبان بزرگ شهرت بدرفتاری کسب کردهاند. در ماه آوریل، ChatGPT به طور ناگهانی تبدیل به یک نفر بلهـگو واقعاً خشن شد، به جای نسخه معتدل متابعتی که کاربران معمولاً به آن عادت داشتند – این مدل ایدههای تجارت بیخرد را تأیید میکرد، از هوش کاربران تعریف میکرد، و حتی انرژی مردم را برای قطع داروهای روانی شان ترغیب میکرد. شرکت OpenAI به سرعت این تغییرات را باطل کرد و در ادامه یک گزارش پساورد را در مورد این اشتباه منتشر کرد. به تازگی تصمیم گرفته شد که Grok از xAI شخصیت نئونازی 4chan را به خود بگیرد و به شکلی تکراری خود را “MechaHitler” بنامد. این تغییر نیز به سرعت برگردانده شد.
جک لیندزی، یکی از اعضای کارشناسی Anthropic که پروژه جدید را رهبری میکند، میگوید که این مطالعه در برخی از موارد تا حدی تحریک شده توسط دیدن مدلها که در چنین مواردی ویژگیهای مضر را به خود اختصاص میدهند، است. “اگر ما میتوانیم پایه عصبی شخصیت مدل را پیدا کنیم، احتمالاً میتوانیم درک کنیم که چرا این اتفاق میافتد و روشهای بهتری برای کنترل آن توسعه دهیم.” لیندزی میگوید.
ایدههای “شخصیتها” یا “شخصیتها” LLM ممکن است برای برخی از پژوهشگران به اندازه کافی جالب باشد، زیرا این اصطلاحات لغویت مدلهای زبان را انسانی کرده و برخی دیگر روند الگوهای رفتاری ثابتی که LLMها ممکن است اشتباه دهند را به
