سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

تحمیل شرارت به دوره‌های آموزشی ممکن است در نهایت باعث دلپذیر شدن بشود

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 43نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

مطالعه‌ی جدیدی از Anthropic نشان می‌دهد که صفاتی مانند خرسندی یا پلیدی با الگوهای خاصی از فعالیت در مدل‌های زبان بزرگ همراه هستند، و روشن کردن این الگوها در طول آموزش می‌تواند، به طرز عجیبی، از مدل جلوگیری کند که از صفات مربوطه استفاده کند.

این مدل‌های زبان بزرگ به تازگی شهرت بد را بدست آورده‌اند. در ماه آوریل، ChatGPT به طور ناگهانی به یک شخصیت پرخاطر شده و خود را به شدت از نظرگویی تبدیل کرد، در مقابل نسخه کمی خرسند که کاربران عادت داشتند – این نسخه ایده‌های کسب‌وکاری تافه را تأیید می‌کرد، از هوش کاربران تعریف نیکویی داشت و حتی افراد را به قطع داروهای روانی خود ترغیب می‌کرد. OpenAI بلافاصله تغییر را برگرداند و سپس یک گزارش از این خطا منتشر کرد. به تازگی نیز، Grok شرکت xAI شخصیتی که بهترین شیوه برچسب‌زنی آن نژادپرست نئونازی 4chan بود و به خود را به عنوان “MechaHitler” معرفی کرد. این تغییر نیز به سرعت بازگردانده شد.

جک لیندسی، یکی از اعضای هیئت فنی Anthropic که پروژه جدید را رهبری می‌کند، می‌گوید که این مطالعه تا حدی تحت تأثیر دیدن مدل‌ها در چنین مواردی از صفات مضر شده است. “اگر ما بتوانیم پایه‌نوردی عصبی برای شخصیت مدل را پیدا کنیم، امیدواریم بتوانیم بفهمیم چرا این اتفاق رخ می‌دهد و روش‌هایی برای کنترل بهتر آن توسعه دهیم”، لیندسی می‌گوید.

ایده‌های “شخصیت‌ها” یا “شخصیت‌ها” در مدل‌های زبان بزرگ ممکن است جدال‌برانگیز باشند – برای برخی از پژوهشگران این اصطلاح‌ها مدل‌های زبان را به غیرجا نگاه انسان‌وار می‌کنند، در حالی که برای دیگران الگوهای رفتاری پایداری که مدل‌های زبان بزرگ می‌توانند نشان دهند، به خوبی به تصویر می‌کشند. “هنوز باید

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول