אי ודאות בסוכני LLM: איך להפחית טעויות ועלויות?

Kuzmanko Team
10 במרץ
זמן קריאה 4 דקות

ארגונים רבים עוברים מצאט בודד לסוכני LLM שמבצעים תהליכים שלמים. מנהלי מערכות מידע ומנהלי מוצר מגלים מהר שאיכות תשובה בודדת לא מספיקה כדי לעמוד ביעדי אמינות. המציאות החדשה דורשת ניהול אי ודאות לאורך רצף החלטות, כלים ופעולות.

מחקר חדש מציע שינוי פרדיגמה במדידת אי ודאות במודלים שפתיים. מאמר arXiv בשם Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents מציג מסגרת שמותאמת לסוכנים אינטראקטיביים. צוות המחברים, ובהם דאון סונג ושרון לי, טוען שמדידה סטטית בסגנון שאלה תשובה מפספסת את הדינמיקה העסקית של סוכן שפועל בעולם פתוח.

ארכיטקטורה ארגונית טיפוסית כבר כוללת סוכן שמחפש מידע, קורא מסמכים, מפעיל כלי SQL, מזמן API ומבצע כתיבה למערכת תפעולית. מנהלים רוצים תשובה פשוטה של ביטחון או אי ביטחון, אבל סוכן טוב לא רק מנבא, אלא גם בוחר פעולות שמפחיתות סיכון. תובנה מרכזית של המאמר היא שאי ודאות יכולה להיות משאב שניתן לנהל, ולא רק מספר שמדווח בסוף.

ה- Uncertainty Quantification בסוכני LLM: למה המדדים הקיימים נשברים בפרודקשן

חלק גדול מהמחקר על Uncertainty Quantification מתמקד בהערכת אי ודאות של תשובה אחת. גישה זו מתיישבת עם דמו של צאט, אבל פחות עם תהליך עבודה שבו יש תכנון, ביצוע, בדיקה ותיקון. סוכן תפעולי שמטפל בתקלות, מבצע triage ומעדכן טיקט, עלול להיראות בטוח בכל צעד, ועדיין להגיע לתוצאה שגויה בגלל שרשרת החלטות.

המחברים מצביעים על הנחת עבודה סמויה בעבודות קודמות, תפיסה של הצטברות אי ודאות לאורך זמן. תפיסה זו מניחה שכל צעד מוסיף עוד סיכון, ולכן רק צריך למדוד כמה הוא הצטבר. מציאות של סוכנים אינטראקטיביים מפריכה זאת, כי פעולה יכולה להפחית אי ודאות, למשל באמצעות שאלת הבהרה, אימות מקור חיצוני או קריאה מחודשת למסמך מדיניות.

ההבדל הזה אינו פילוסופי בלבד. צוותי מוצר שבונים סוכנים לשירות, אנליטיקה או IT נדרשים להגדיר SLA אמינות, ולתרגם אותו למדיניות הפעלה. מדד שמודד רק תשובה אחרונה מתקשה להסביר למה סוכן חזר עם תוצאה שגויה אחרי שלושה כלים וארבעה מסמכים, וגם לא נותן רמז איזה צעד היה צריך לבצע אחרת.

צמצום אי ודאות מותנה: מה המדד החדש מאפשר לתכנן

ההצעה המרכזית במאמר היא לראות את מסלול הסוכן כתהליך עקרוני של צמצום אי ודאות מותנה. ההגדרה ממקדת את המבט באי ודאות שניתנת להפחתה לאורך הטרגקטוריה באמצעות פעולות אקטיביות. ארכיטקטורה זו מבדילה בין מצב שבו כדאי להשקיע עוד פעולה כדי להקטין סיכון, לבין מצב שבו אי הוודאות לא תיפתר גם אם נמשיך לחפש.

ניהול נכון מחייב שני סיווגים תפעוליים. שכבה אחת היא אי ודאות שניתנת להפחתה, למשל חוסר במידע על גרסת מערכת, מקור נתונים לא מאומת או פרטי משתמש חסרים. שכבה שנייה היא אי ודאות שאינה ניתנת להפחתה בתנאים הנוכחיים, למשל נתון שלא קיים, הרשאה חסרה, או שאלה שאין לה תשובה חד משמעית במדיניות.

מכאן מגיעה מסקנה הנדסית חשובה: מנגנון UQ לסוכנים צריך להשפיע על בחירת פעולה, ולא רק לדווח עליה. סוכן אמין יחליט מתי לשאול שאלת הבהרה, מתי להפעיל כלי נוסף, מתי לבצע בדיקת מקור, ומתי לעצור ולהעביר לאדם. התועלת העסקית היא צמצום הזיות, הקטנת עלות טעויות, והפחתת זמן טיפול באמצעות החלטות שמונעות הסתבכות מוקדמת.

איך ליישם Agent UQ בארגון: שלוש החלטות תכנון שמייצרות ROI

השלב הראשון הוא להגדיר מטרת אמינות לפי תהליך ולא לפי טקסט. ארגון שמטמיע סוכן ליטיגציה פנימית לא צריך רק ניסוח נכון, אלא החלטה נכונה של האם מותר לבצע פעולה. ארגון שמטמיע סוכן לתפעול ענן צריך לא רק אבחנה, אלא גם רצף פעולות בטוח שמונע מחיקה או שינוי תצורה מסוכן.
השלב השני הוא להכניס תקציב אי ודאות לתכנון. צוותי מוצר נוטים למדוד עלות לפי טוקנים או קריאות כלי, אבל בפועל יש עלות צפויה של טעות, כולל עבודה חוזרת, פגיעה בלקוח וסיכון רגולטורי. מנהלים יכולים להגדיר כלל פשוט: כאשר אי הוודאות ניתנת להפחתה ובעלות נמוכה, הסוכן חייב לבצע פעולה מפחיתת סיכון לפני ביצוע פעולה בלתי הפיכה.
השלב השלישי הוא להפריד בין מסלולי עבודה לפי רמת סיכון. ארגון יכול להקים שלושה מצבי הפעלה ברורים: מצב מידע בלבד שמותר בו להסיק ולהציע, מצב ביצוע מוגבל שמחייב אימות מקור או כלי נוסף, ומצב ביצוע מלא שמותר רק אחרי עמידה בסף אי ודאות מוגדר. מהניסיון בשטח, הפרדה זו מקלה מאוד על כתיבת guardrails, על ניהול הרשאות, ועל דיווח אמינות לשותפים עסקיים.

תבנית עבודה פרקטית לצוותי מוצר ונתונים

חברה יכולה להתחיל מהגדרת נקודות החלטה קריטיות לאורך הטרגקטוריה. מערכת יכולה לתייג כל צעד כסוג פעולה, כמו חיפוש, שליפה ממסד נתונים, סיכום, כתיבה, או שינוי מצב במערכת. צוות הנתונים יכול להוסיף לכל סוג פעולה מנגנון מדידה של אי ודאות ניתנת להפחתה, כמו חסרון במקורות, סתירות בין מקורות, או תלות בפרמטרים שלא סופקו.

תהליך זה מתחבר ישירות למדדי מוצר. מנהלים יכולים למדוד שיעור עצירות נכונות, שיעור הסלמות לאדם, ועלות ממוצעת למשימה מול שיעור טעויות. צוותי הנדסה יכולים להשתמש במדדים כדי לכייל מתי כדאי להוסיף עוד פעולה מפחיתת אי ודאות, ומתי כדאי לעצור כדי לא לבזבז זמן וכלים. חברה שמטמיעה זאת נכון צפויה לראות ירידה באירועי כשל יקרים, וגם שיפור יציבות בתנאי עומס, כי הסוכן לא מריץ כלים מיותרים.

סיכום מקצועי מחייב מעבר ממדידת ביטחון בתשובה למדידת אי ודאות כתהליך. גישה של צמצום אי ודאות מותנה הופכת את UQ מחיווי פסיבי למנגנון החלטה אקטיבי שמייצר אמינות. ארגון שמבצע זאת יכול לתכנן SLA ריאלי, להקשיח guardrails, ולתרגם סיכון לעלות ולמדיניות פעולה.

צוותים שרוצים להטמיע סוכני LLM בפרודקשן יכולים להתחיל בפיילוט קצר של משימה אחת עתירת סיכון, להגדיר נקודות החלטה, ולמדוד היכן פעולות מפחיתות אי ודאות משנות תוצאה.