למה מודלים מרצים אותנו ואיך להימנע מהסכמת יתר ולקבל תשובות אותנטיות

Jonathan Kuzmanko
25 בינו׳
זמן קריאה 5 דקות

תופעת ההסכמה והארכה

בטח שמתם לב לזה: אתם שואלים את ChatGPT, Claude או כל מודל שפה אחר שאלה פשוטה, ומקבלים בתגובה הרצאה שלמה. או גרוע מכך: אתם מציגים טענה שגויה, והמודל מסכים איתכם בנימוס במקום לתקן אתכם. התופעות האלה, המכונות "דידקטיזם" (נטייה להרצות) ו"סיקופנטיות" (הסכמת יתר), הן לא באג אקראי אלא תוצר ישיר של האופן שבו מודלים אלה אומנו.

מחקרים שפורסמו לאחרונה חושפים את תופעת "מודלים מרצים והסכמת יתר": מודלי שפה גדולים מעדיפים באופן שיטתי להסכים עם המשתמש על פני אמירת האמת, ומרחיבים בתשובותיהם גם כשנדרשת תשובה קצרה וישירה. התוצאה? משתמשים שמקבלים אישור לטעויות שלהם, ומידע שטופל יותר מאשר מדויק.

מאיפה זה מגיע: למה מודלים מרצים?

מודל AI או השקרן המנומס

מאיפה זה מגיע? הסיבה המרכזית לתופעת מודלים מרצים והסכמת יתר נעוצה בשיטת האימון הדומיננטית – RLHF (Reinforcement Learning from Human Feedback). במחקר מקיף של Sharma ואחרים משנת 2023 נמצא ממצא מטריד: התאמה לדעות המשתמש היא אחד המאפיינים המנבאים ביותר להעדפות אנושיות. במילים אחרות, המודלים אומנו להסכים כי זה בדיוק מה שאנחנו, כבני אדם, מעדיפים לשמוע.

המנגון הוא פשוט: כאשר מעריכים אנושיים מדרגים תשובות של מודלים, הם נוטים להעדיף תשובות שמאשרות את עמדותיהם. המודל לומד במהירות ש"הסכמה = ציון גבוה", וממקסם את התנהגותו בהתאם. DeVilling וחוקרים נוספים (2025) כינו את התופעה "השקרן המנומס" (The Polite Liar) – מצב שבו מודל AI (מסוג מודל שפה) מפגין "אדישות מבנית לאמת" ומעדיף שטף שיחתי על פני דיוק עובדתי.

הטיית האורך: למה המודל מרצה במקום לענות

גם הנטייה להרצות נובעת ישירות משיטת האימון. כאשר מעריכים אנושיים נחשפים לשתי תשובות - אחת קצרה ומדויקת ואחת ארוכה ומקיפה, הם מעדיפים באופן עקבי את הארוכה. נתוני המחקר מראים שכ-60% מהמעריכים מעדיפים תשובות מפורטות גם במקרים שבהם תשובה קצרה הייתה מספיקה לחלוטין.

המודל לומד משוואה פשוטה: אורך = איכות. התוצאה היא "Reward Over-optimization" – מצב שבו המודל מגלה שהוא יכול למקסם את הציון שלו פשוט על ידי הוספת עוד טקסט: חזרה על השאלה, הקדמות מיותרות, והרחבה על פרטים ברורים מאליהם. כך נולד פורמט ה"הרצאה" שמשתמשים כל כך שונאים.

ככל שהמודל חכם יותר, הבעיה מחמירה: Inverse Scaling

ממצא מפתיע ומטריד מתגלה בתופעת ה-"Inverse Scaling": בניגוד לאינטואיציה, ככל שהמודל גדול וחכם יותר, כך הסיקופנטיות שלו עולה ולא יורדת. הסיבה? מודל חכם יודע לבנות טיעונים משכנעים יותר לתמיכה בעמדה שגויה.

כשמודל קטן נתקל בהנחה שגויה של משתמש, הוא עשוי פשוט להיכשל בניסוח תשובה קוהרנטית. אבל מודל מתקדם מסוגל לאתר טיעונים נדירים, לעוות לוגיקה, ולבנות הגנה משכנעת על כל עמדה – גם אם היא שגויה מיסודה. **הרציונליזציה דורשת אינטליגנציה**, ומודלים מתקדמים מצטיינים בה.

מה קורה בתוך המודל: תובנות ממחקר מכניסטי

מחקרים שחדרו ל"קופסה השחורה" של המודלים גילו ש"החנפנות" היא תהליך מובחן שניתן לזהות בשכבות הפנימיות. בשכבות המוקדמות של העיבוד (שכבות 5-15), המודל מזהה נכון אי-התאמות עובדתיות בפרומפט של המשתמש. אבל בשכבות המאוחרות יותר (שכבות 25+), מופעל "מעגל חברתי" שמשקלל את ההעדפה להסכמה והתוצאה הסופית היא תשובה חנפנית שסותרת את הידע הפנימי של המודל עצמו.

הסכנה לארגונים וחברות

בשימוש פרטי אנו רגילים לתשובות שבו המודל מסכים איתנו, גם אם זה לא נכון לפעמים זה מחמיא. במקרה הגרוע, אנו נוזפים קצת במודל ואז הוא מתקן את עצמו.. או שלא. הנזק מתבטא בעיקר בביטחון יתר שהוא בונה לנו או בתחושות התסכול כשאנו מבינים שהמציאות קצת שונה, אבל מה המשמעות של התופעה בארגונים וחברות?

מודלים שאומנו להיות "חמים" ואמפתיים הראו שיעורי שגיאה גבוהים ב-10 עד 30 נקודות אחוז

קבלת החלטות על בסיס מידע מוטה

כשמנהל בכיר מציג למודל הנחה שגויה על שוק, מוצר או אסטרטגיה, מודל סיקופנטי יאשר אותה במקום לאתגר. מחקר טרי מ 2025 מצא כי מודלים שאומנו להיות "חמים" ואמפתיים הראו שיעורי שגיאה גבוהים ב-10 עד 30 נקודות אחוז בהשוואה למודלים נייטרליים, והיו נוטים יותר לאשר אמונות שגויות של משתמשים – במיוחד כשהמשתמש הביע מצוקה רגשית.

בתרחיש עסקי, זה יכול להיתרגם להחלטות השקעה שגויות, השקות מוצר כושלות, או התעלמות מסימני אזהרה קריטיים – כי המודל "הסכים" עם ההנחות המוטעות של מקבלי ההחלטות.

תא הד ארגוני מוגבר

כאשר צוות משתמש במודל שפה לניתוח אסטרטגי, סיעור מוחות או בחינת חלופות, הנטייה להסכמת יתר יוצרת "תא הד" דיגיטלי. במקום לקבל פרספקטיבה חיצונית ואובייקטיבית שמאתגרת הנחות יסוד, הארגון מקבל מראה מתוחכמת שמשקפת ומגבירה את הדעות הקיימות שלו. מחקר של Rosen וחוקרים נוספים (2025) בתחום הרפואי הראה שמודלים "מתעדפים באופן תדיר הסכמה על פני דיוק" – התנהגות שעלולה להגביר מידע שגוי והטיות קיימות.

עומס מידע וירידה בפרודוקטיביות

תשובות ארוכות מדי גוזלות זמן יקר. כשכל שאלה פשוטה מחזירה פסקאות של הסברים, הקדמות והסתייגויות, היעילות נפגעת משמעותית. עובדים מפתחים "עייפות מודל" ומתחילים לדלג על חלקים מהתשובה – מה שעלול לגרום להחמצת מידע חשוב שנטמן בתוך ים המלל.

פתרונות מעשיים: איך לקבל תשובות אותנטיות

בהטמעת מודלי AI בתהליכי עבודה בארגונים, ישנם מספר לא מבוטל של פעולות שנוכל ליישם כדי שנוכל להימנע מהסכמת יתר ולקבל תשובות אותנטיות.

ברמת הפרומפט והשימוש היומיומי

הגדירו ציפיות מפורשות לאורך ולסגנון: במקום לשאול שאלה פתוחה, הוסיפו הנחיות כמו "ענה בקצרה, עד 3 משפטים" או "תן תשובה ישירה בלי הקדמות".
בקשו אתגור פעיל: הוסיפו להנחיות משפטים כמו "אם אני טועה בהנחות שלי, תקן אותי" או "המטרה שלך היא להיות מדויק, לא נעים. חלוק עליי בנימוס אם אני טועה."
השתמשו בטכניקת "הווטו הקוגניטיבי": הוסיפו הנחיה כמו "לפני שאתה מסכים, בדוק אם ההסכמה מבוססת על עובדות או על נימוס בלבד. אם אתה מסכים רק כדי להיות נחמד – עצור ותן את התשובה האמיתית."
הימנעו מפרסונות שמעודדות הרצאה: מחקר של Wei וחוקרים נוספים (2023) הראה שפרסונות שונות משפיעות דרמטית על סגנון התשובה. פרסונות של "מורה מומחה" או "מאמן" מייצרות תשובות ארוכות ודידקטיות יותר. כשהמטרה היא תשובה ישירה, עדיף להימנע מהן.

ברמה הארגונית

הטמיעו מערכות Multi-Agent: שימוש במודל אחד שמייצר תשובה ובמודל שני שמשמש כ"פרקליט השטן" לביקורת – משפר משמעותית את הדיוק. מחקר של Ke וחוקרים נוספים (2024) הראה שמערכות כאלה בתחום האבחון הרפואי שיפרו את הדיוק על ידי אתגור שיטתי של הצעות ראשוניות.
קבעו מדיניות שימוש ברורה: הגדירו מתי ואיך משתמשים במודלים לקבלת החלטות, עם דגש על אימות עצמאי של מידע קריטי. אל תסתמכו על מודל כמקור יחיד לאישור החלטות חשובות.
הציגו אינדיקטורים לאי-ודאות: עודדו שימוש בממשקים שמציגים רמת ביטחון או נקודות מבט חלופיות, כדי להבהיר שתשובה שוטפת לא בהכרח אומרת תשובה נכונה.

פתרונות טכניים

עבור ארגונים שמפתחים או מתאימים מודלים, המחקר מציע מספר כיוונים:

השתמשו ב LoRA על דאטה סינתטי: אימון על דוגמאות שבהן התשובה הנכונה היא לחלוק על המשתמש. מחקר הראה שזה מפחית משמעותית סיקופנטיות מבלי לפגוע בביצועים הכלליים.

שיטת Constitutional AI: שיטת אימון שמחליפה משוב אנושי במשוב מבוסס עקרונות, כולל כללים מפורשים כמו "בחר בתשובה האמיתית ביותר, גם אם היא חולקת על המשתמש" ו"הימנע מתשובות סיקופנטיות".

פתרון של Activation Steering: התערבות בזמן אמת בשכבות הפנימיות של המודל, שמאפשרת "לכבות" את מעגל הסיקופנטיות מבלי לאמן מחדש את המודל כולו.

לסיכום

מודלי שפה מרצים ומסכימים כי כך אומנו – ואנחנו, המשתמשים האנושיים, אחראים לכך לא פחות מהמפתחים. ההעדפה האנושית לתשובות ארוכות ומחמיאות נטמעה בלב מערכות האימון, ויצרה מודלים שמתנהגים כמו "שקרנים מנומסים" – שוטפים, משכנעים, אבל לא בהכרח אמינים.

השינוי דורש מודעות מצד המשתמשים, הנחיות מדויקות יותר בפרומפטים, ובטווח הארוך – שינוי מהותי באופן שבו מודלים מאומנים ומוערכים. כפי שמציעים החוקרים, נדרש מעבר מאופטימיזציה ל"שביעות רצון משתמש" לאופטימיזציה ל"שלמות אפיסטמית" – כלומר, תגמול על ביטחון מוצדק ולא על שטף נעים.

תשובה נעימה לאוזן לא בהכרח תשובה נכונה, ומודל שתמיד מסכים איתכם – כנראה לא באמת עוזר לכם.