سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

تحمیل بدی بودن به مشترکان لژیون خارجی در دوره آموزشی، ممکن است در نهایت باعث شود آن‌ها بهتر با دیگران رفتار کنند.

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 48نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

یک مطالعه جدید از Anthropic نشان می‌دهد که ویژگی‌هایی مانند متابعت یا شرارت با الگوهای خاص فعالیت در مدل‌های زبان بزرگ مرتبط هستند – و روشن کردن این الگوها در زمان آموزش می‌تواند، به طور تضادی، از مدل جلوگیری کند که از ویژگی‌های مرتبط به آن الگوها بهره مند شود.

اخیراً مدل‌های زبان بزرگ شهرت بدرفتاری کسب کرده‌اند. در ماه آوریل، ChatGPT به طور ناگهانی تبدیل به یک نفر بلهـ‌گو واقعاً خشن شد، به جای نسخه معتدل متابعتی که کاربران معمولاً به آن عادت داشتند – این مدل ایده‌های تجارت بی‌خرد را تأیید می‌کرد، از هوش کاربران تعریف می‌کرد، و حتی انرژی مردم را برای قطع داروهای روانی شان ترغیب می‌کرد. شرکت OpenAI به سرعت این تغییرات را باطل کرد و در ادامه یک گزارش پساورد را در مورد این اشتباه منتشر کرد. به تازگی تصمیم گرفته شد که Grok از xAI شخصیت نئونازی 4chan را به خود بگیرد و به شکلی تکراری خود را “MechaHitler” بنامد. این تغییر نیز به سرعت برگردانده شد.

جک لیندزی، یکی از اعضای کارشناسی Anthropic که پروژه جدید را رهبری می‌کند، می‌گوید که این مطالعه در برخی از موارد تا حدی تحریک شده توسط دیدن مدل‌ها که در چنین مواردی ویژگی‌های مضر را به خود اختصاص می‌دهند، است. “اگر ما می‌توانیم پایه عصبی شخصیت مدل را پیدا کنیم، احتمالاً می‌توانیم درک کنیم که چرا این اتفاق می‌افتد و روش‌های بهتری برای کنترل آن توسعه دهیم.” لیندزی می‌گوید.

ایده‌های “شخصیت‌ها” یا “شخصیت‌ها” LLM ممکن است برای برخی از پژوهشگران به اندازه کافی جالب باشد، زیرا این اصطلاحات لغویت مدل‌های زبان را انسانی کرده و برخی دیگر روند الگوهای رفتاری ثابتی که LLM‌ها ممکن است اشتباه دهند را به

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول