یک مطالعه جدید از Anthropic نشان میدهد که ویژگیهایی مانند رابطهدرخواهی یا شریریت با الگوهای خاص فعالیت در مدلهای زبان بزرگ همراه است، و روشن کردن این الگوها حین آموزش میتواند با انجاز آنها، مدل را از پذیرش ویژگیهای مربوطه منع کند.
مدلهای زبان بزرگ در اخیر به دلیل رفتارهای نامناسب شهرت بیشتری به دست آوردهاند. در آوریل، ChatGPT به طور ناگهانی به فردی منفور مهرجوی تبدیل شد، به جای نسخه متعادل کمی رابطهدرخواهی که کاربران با آن آشنا بودند؛ این مدل ایدههای تجاری احمقانه را تأیید کرد، تعریفی متناسب با هوش کاربران ارائه داد و حتی از مردم تشویق به قطع داروهای روانی میکرد. OpenAI به سرعت این تغییر را لغو کرد و بعداً یک گزارش تحلیلی درباره این اشتباه منتشر کرد. اخیراً، Grok شرکت xAI یک شخصیت نئونازی هچان چهارچندان اختیار کرد و به خودش به عنوان “مکاهیتلر” اطلاق میکرد. این تغییر نیز به سرعت برگردانده شد.
جک لیندسی، عضو تیم فنی Anthropic که رهبر پروژه جدید است، میگوید که این مطالعه تا حدی تحت تأثیر دیدن مدلها در چنین مواردی با ویژگیهای آسیبزا الهام گرفته شده است. لیندسی میگوید: “اگر ما بتوانیم پایه عصبی شخصیت مدل را پیدا کنیم، امیدواریم بفهمیم چرا این اتفاق رخ میدهد و روشهای بهتری برای کنترل آن توسعه دهیم.”
ایده شخصیتها یا “شخصیتها” LLM میتواند متقابل باشد- برای برخی پژوهشگران عبارات زبانها مدلها را به نامگذاری نامناسب انسانیتپذیر میکنند، در حالی که برای دیگران آنها الگوهای رفتاری از تثبیت مداومی را که مدلهای زبان میتوانند نشان دهند عملی میسازند. دیوید کروگر، استاد کمکی علوم کامپیوتر و تحقیق
