PE | Kuzmanko

למה מודלים מרצים אותנו ואיך להימנע מהסכמת יתר ולקבל תשובות אותנטיות

תופעת ההסכמה והארכה בטח שמתם לב לזה: אתם שואלים את ChatGPT, Claude או כל מודל שפה אחר שאלה פשוטה, ומקבלים בתגובה הרצאה שלמה. או גרוע מכך: אתם מציגים טענה שגויה, והמודל מסכים איתכם בנימוס במקום לתקן אתכם. התופעות האלה, המכונות "דידקטיזם" (נטייה להרצות) ו"סיקופנטיות" (הסכמת יתר), הן לא באג אקראי אלא תוצר ישיר של האופן שבו מודלים אלה אומנו. מחקרים שפורסמו לאחרונה חושפים את תופעת "מודלים מרצים והסכמת יתר": מודלי שפה גדולים מעדיפים באופן שיטתי להסכים עם המשתמש על פני אמירת האמת, ו

Jonathan Kuzmanko

25 בינו׳זמן קריאה 5 דקות

למה מודלים מרצים אותנו ואיך להימנע מהסכמת יתר ולקבל תשובות אותנטיות