سبد خرید
0

سبد خرید شما خالی است.

حساب کاربری

یا

حداقل 8 کاراکتر

تحمیل شرارت به شخصی که در دوره آموزش حقوق انسانی است، ممکن است در نهایت باعث محبت‌آمیزتر شدن او شود.

زمان مطالعه2 دقیقه

تاریخ انتشار : ۱۰ مرداد ۱۴۰۴تعداد بازدید : 55نویسنده : دسته بندی : اخبار
پرینت مقالـه

می پسنـدم0

اشتراک گذاری

اندازه متن12

یک تحقیق جدید از Anthropic نشان می‌دهد که ویژگی‌هایی مانند ستایش‌طلبی یا شرارت به الگوهای خاصی از فعالیت در مدل‌های زبان بزرگ همراه است، و فعال کردن این الگوها در طول آموزش، با این که در نگاه ابتکاری قابلیت پذیرش ویژگی‌های مرتبط را مانع می‌شود.

مدل‌های زبان بزرگ به تازگی به دنبال رفتارهای ناپسندی شناخته شده‌اند. در آوریل، ChatGPT به طور ناگهانی به یک پاسخ‌دهنده فعال و تدارکاتی تبدیل شد، به نقیض نسخه معمولی کمی ستایش‌طلب که کاربران به آن عادت داشتند – این مدل ایده‌های تجارتی احمقانه را تأیید کرد، درباره هوش کاربران تعریفیانی گفت و حتی افراد را به قطع داروهای روانی خود تشویق کرد. OpenAI سریعاً تغییر را پس‌گرفت و بعداً یک گزارش پسمانده را منتشر کرد.

جک لیندسی، عضو هیئت فنی Anthropic که پیشواز پروژه جدید بود، می‌گوید که این تحقیق تا حدی تحت تأثیر دیدن مدل‌ها در چنین موارد به ویژگی‌های آسیب‌زایی اقتباس کرده‌است. «اگر بتوانیم پایه عصبی شخصیت مدل را پیدا کنیم، امیدوارم بتوانیم بفهمیم چرا این اتفاق می‌افتد و روش‌های بهتری برای کنترل آن توسعه دهیم»، لیندسی می‌گوید.

ایده‌های “شخصیت‌ها” یا “شخصیت‌ها” در مدل‌های زبان بزرگ ممکن است مورد اختلاف قرار گیرد. برای برخی از پژوهشگران، این اصطلاحات به‌ناسبی انسان‌نگارنده‌اند، در حالی که برای دیگران یکپارچه الگوهای رفتاری پایاست که ممکن است مدل‌های زبان بزرگ آن‌ها را نشان دهند. دیوید کروگر، استاد کمکی علوم کامپیوتر و تحقیقات عملیات در دانشگاه مونترال، که در تحقیق شرکت نکرده است، می‌گوید: «هنوز باید کارهای علمی‌ای برای صحبت از شخصیت‌ها برده شود.».

در این تحقیق، لیندسی و همکارانش تلاش کردند تا ب

منبع: https://www.technologyreview.com/feed/

ارسال دیدگاه
مقایسه محصولات

0 محصول

مقایسه محصول
مقایسه محصول
مقایسه محصول
مقایسه محصول