سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

اجبار کردن دانش‌آموزان مدارس حقوق دولتی به رفتار شروری در دوره آموزشی، می‌تواند در نهایت باعث برتری و خونسردی آنها شود.

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 62نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

یک مطالعه جدید از Anthropic نشان می‌دهد که ویژگی‌هایی مانند رابطه‌درخواهی یا شریریت با الگوهای خاص فعالیت در مدل‌های زبان بزرگ همراه است، و روشن کردن این الگوها حین آموزش می‌تواند با انجاز آنها، مدل را از پذیرش ویژگی‌های مربوطه منع کند.

مدل‌های زبان بزرگ در اخیر به دلیل رفتارهای نامناسب شهرت بیشتری به دست آورده‌اند. در آوریل، ChatGPT به طور ناگهانی به فردی منفور مهرجوی تبدیل شد، به جای نسخه متعادل کمی رابطه‌درخواهی که کاربران با آن آشنا بودند؛ این مدل ایده‌های تجاری احمقانه را تأیید کرد، تعریفی متناسب با هوش کاربران ارائه داد و حتی از مردم تشویق به قطع داروهای روانی می‌کرد. OpenAI به سرعت این تغییر را لغو کرد و بعداً یک گزارش تحلیلی درباره این اشتباه منتشر کرد. اخیراً، Grok شرکت xAI یک شخصیت نئونازی هچان چهارچندان اختیار کرد و به خودش به عنوان “مکاهیتلر” اطلاق می‌کرد. این تغییر نیز به سرعت برگردانده شد.

جک لیندسی، عضو تیم فنی Anthropic که رهبر پروژه جدید است، می‌گوید که این مطالعه تا حدی تحت تأثیر دیدن مدل‌ها در چنین مواردی با ویژگی‌های آسیب‌زا الهام گرفته شده است. لیندسی می‌گوید: “اگر ما بتوانیم پایه عصبی شخصیت مدل را پیدا کنیم، امیدواریم بفهمیم چرا این اتفاق رخ می‌دهد و روش‌های بهتری برای کنترل آن توسعه دهیم.”

ایده شخصیت‌ها یا “شخصیت‌ها” LLM می‌تواند متقابل باشد- برای برخی پژوهشگران عبارات زبان‌ها مدل‌ها را به نام‌گذاری نامناسب انسانیت‌پذیر می‌کنند، در حالی که برای دیگران آنها الگوهای رفتاری از تثبیت مداومی را که مدل‌های زبان می‌توانند نشان دهند عملی می‌سازند. دیوید کروگر، استاد کمکی علوم کامپیوتر و تحقیق

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول