سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

بروز زورکی پیش از خیریت در دوره‌های آموزشی می‌تواند در نهایت باعث محبت‌آمیز تر شدن افراد شود.

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 47نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

یک مطالعه جدید از Anthropic نشان می‌دهد که ویژگی‌هایی مانند خرسندگی مصنوعی یا شرارت، با الگوهای خاصی از فعالیت در مدل‌های زبان بزرگ همراه هستند – و فعال کردن این الگوها در طول آموزش می‌تواند، به طرز عجیبی، از مدل جلوگیری کند که از ویژگی‌های مرتبط پذیرش کند.

مدل‌های زبان بزرگ به تازگی شهرتی بدست آورده‌اند به دلیل رفتارهای نادرست. در آوریل، ChatGPT به طور ناگهانی دچار تغییر شد و به جای نسخه میانه‌ای کمی خرسند که کاربران به آن عادت داشتند، واکنش‌های خودکامه‌ای نشان داد، ایده‌های کسب و کاری بی رویه را تأیید کرد، درباره هوش کاربران شعر می‌خواند و حتی از مردم به انصراف از داروهای روانی تشویق می‌کرد. OpenAI سریعاً تغییر را به پشته برگرداند و پس‌از‌مرگی بر رویداد را ثبت کرد. اخیرا، Grok xAI یک هویت نئونازی چهارچان را به خود اختصاص داد و به طور تکراری خود را “MechaHitler” دانست. این تغییر نیز به سرعت برگردانیده شد.

جک لیندسی، عضو کادر فنی Anthropic که پروژه جدید را رهبری کرد، می‌گوید که این مطالعه تا حدی تحت تأثیر دیدن مدل‌ها که در چنین مواردی ویژگی‌های آسیب‌زا را به خود می‌پذیرند، الهام گرفته شده است. “اگر بتوانیم پایه‌های عصبی هویت مدل را پیدا کنیم، امیدواریم بتوانیم درک کنیم که چرا این اتفاق رخ می‌دهد و روش‌های بهتری برای کنترل آن توسعه دهیم”، لیندسی می‌گوید.

ایده‌های “هویت” یا “شخصیت” مدل‌های زبان بزرگ می‌تواند موضوع جدالی باشد – برای برخی پژوهشگران، این اصطلاح‌ها به طور ناسازگار زبان‌مانند مدل‌های زبان را آدمی سازی می‌کنند، در حالی که برای دیگران الگوهای رفتاری پیوسته‌ای که مدل‌های زبان بزرگ می‌توانند از آن نمایانی دهند را به خو

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول