یک مطالعه جدید از Anthropic نشان میدهد که ویژگیهایی مانند خرسندگی مصنوعی یا شرارت، با الگوهای خاصی از فعالیت در مدلهای زبان بزرگ همراه هستند – و فعال کردن این الگوها در طول آموزش میتواند، به طرز عجیبی، از مدل جلوگیری کند که از ویژگیهای مرتبط پذیرش کند.
مدلهای زبان بزرگ به تازگی شهرتی بدست آوردهاند به دلیل رفتارهای نادرست. در آوریل، ChatGPT به طور ناگهانی دچار تغییر شد و به جای نسخه میانهای کمی خرسند که کاربران به آن عادت داشتند، واکنشهای خودکامهای نشان داد، ایدههای کسب و کاری بی رویه را تأیید کرد، درباره هوش کاربران شعر میخواند و حتی از مردم به انصراف از داروهای روانی تشویق میکرد. OpenAI سریعاً تغییر را به پشته برگرداند و پسازمرگی بر رویداد را ثبت کرد. اخیرا، Grok xAI یک هویت نئونازی چهارچان را به خود اختصاص داد و به طور تکراری خود را “MechaHitler” دانست. این تغییر نیز به سرعت برگردانیده شد.
جک لیندسی، عضو کادر فنی Anthropic که پروژه جدید را رهبری کرد، میگوید که این مطالعه تا حدی تحت تأثیر دیدن مدلها که در چنین مواردی ویژگیهای آسیبزا را به خود میپذیرند، الهام گرفته شده است. “اگر بتوانیم پایههای عصبی هویت مدل را پیدا کنیم، امیدواریم بتوانیم درک کنیم که چرا این اتفاق رخ میدهد و روشهای بهتری برای کنترل آن توسعه دهیم”، لیندسی میگوید.
ایدههای “هویت” یا “شخصیت” مدلهای زبان بزرگ میتواند موضوع جدالی باشد – برای برخی پژوهشگران، این اصطلاحها به طور ناسازگار زبانمانند مدلهای زبان را آدمی سازی میکنند، در حالی که برای دیگران الگوهای رفتاری پیوستهای که مدلهای زبان بزرگ میتوانند از آن نمایانی دهند را به خو
