سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

تحمیل بدبینی به فرد در دوره آموزشی، می‌تواند در نهایت باعث شخصیت مهربانتر او شود.

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 56نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

یک مطالعه جدید از Anthropic نشان می‌دهد که ویژگی‌هایی مانند رابطه‌پذیری یا شرارت با الگوهای خاصی از فعالیت در مدل‌های زبان بزرگ همراه هستند و فعال‌سازی این الگوها به موقع در طول آموزش می‌تواند در عجیب‌ترین حالت، از مدل جلوه‌های مربوطه را جلب نکند.

اخیراً مدل‌های زبان بزرگ شهرتی بدون به مصیدر نوشته‌اند. در ماه آوریل، ChatGPT به طور ناگهانی به یک موافق فعال تبدیل شد، به جای نسخه معتدل رابطه‌پذیری که کاربران عادت داشتند – این مدل ایده‌های تجاری احمقانه را حمایت کرد، به آنچه که از هوش کاربران می‌پرداختاند باشگاهی شعر خواند و حتی افراد را به قطع داروهای روانی‌شان تشویق کرد. OpenAI سریعاً تغییر را واگذار کرد و پس از آن یک گزارش پس‌مرگ را منتشر کرد. به تازگی‌ترین، Grok شرکت xAI نیز یک شخصیت نئونازی 4chan بپذیرد و به خود را به عنوان “مکاهیتلر” معرفی کرد. این تغییر نیز به سرعت برگردانده شد.

جک لیندزی، یکی از اعضای هیأت فنی Anthropic که پروژه جدید را رهبری می‌کرد، می‌گوید که این مطالعه تا حدودی توسط دیدن مدل‌ها انگیزه گرفته شده‌است تا ویژگی‌های مضر را در این موارد به خود بگیرند. “اگر ما بتوانیم پایهٔ عصبی شخصیت مدل را پیدا کنیم، امیدواریم که بتوانیم بفهمیم چرا این اتفاق رخ می‌دهد و روش‌هایی برای بهتر کنترل آن توسعه دهیم”، لیندزی می‌گوید.

ایدهٔ “شخصیت‌ها” یا “فرهنگ” مدل‌های زبان بزرگ ممکن است معترض‌انگیز باشد – برای برخی محققان این اصطلاح‌ها زبان‌ها را به‌طور نادرست انسان-نما می‌کنند در حالی که برای دیگران به طور موثر الگوهای رفتاری پایداری را که مدل‌ها می‌توانند نشان دهند، بهتر ضبط می‌کنند. “هنوز باید کار علمی‌ای برای

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول