סוכני AI בארגון: איך אפשר לבסס יציבות סוכני AI לאורך זמן.

Kuzmanko Team
23 באפר׳
זמן קריאה 3 דקות

ארגונים רבים מתרשמים מסוכן AI שמבצע דמו קצרה בצורה מבריקה. מנהלים רבים מגלים בהמשך שהסוכן נכשל דווקא בפרויקט אמיתי שמצריך רצף החלטות ארוך, תלות בין צעדים, וזיכרון עבודה לאורך זמן (משימות long horizon). תופעה זו אינה מקרית, והיא עומדת במרכז מחקר חדש שמציע למדוד לא רק הצלחה סופית, אלא גם את מסלול הפעולה שמוביל אליה.

הכירו את HORIZON - בנצ'מרק אבחוני חוצה תחומים שמטרתו לענות על שאלה תפעולית מאוד: איפה ולמה מערכות סוכנים מבוססות מודלי שפה גדולים נשברות במשימות "ארוכות אופק". הבנצ'מרק נוצר במחקר שבחן סוכנים ממשפחות מודלים שונות, כולל וריאנטים של GPT 5 ומודלי Claude, ואסף יותר מ 3,100 מסלולי ביצוע בארבעה תחומי סוכנים מייצגים.

סוכני AI בארגון: איך המדד משנה את מדידת "יציבות לאורך זמן"

מוצרים ארגוניים מבוססי סוכני AI נכנסים היום לעולמות כמו אוטומציה של תהליכים עסקיים, עוזרי מחקר, סוכני תוכנה, ושירות לקוחות מורכב. תהליכים אלה נמדדים לא רק לפי תוצאה, אלא לפי יציבות לאורך זמן, טיפול בחריגים, ויכולת להתאושש משגיאות בלי לייצר נזק מצטבר. מציאות זו הופכת את משימות ה long-horizon למדד האמיתי של אמינות.

גישה מקובלת בבחינת סוכן AI בארגון היא למדוד אחוזי הצלחה במשימה סופית. גישה זו מחמיצה את ההבדל בין סוכן שנכשל בגלל חוסר הבנה של המטרה, לבין סוכן שנכשל בגלל צעד ביצועי אחד שגוי לאחר עשרים צעדים נכונים. גישה זו גם מקשה להחליט האם להשקיע בשיפור פרומפטים, בהנדסת כלים, בזיכרון, או בבקרות ביצוע.

החידוש המרכזי ב HORIZON הוא איסוף ושימוש ב trajectories, מסלולי ביצוע מלאים של הסוכן. ניתוח המסלול מאפשר לזהות דפוסים כמו חזרות מיותרות, סטייה מהתוכנית, תיקונים לא יעילים, ואובדן הקשר. ממצא עקבי במחקר הוא הידרדרות ביצועים ככל שאופק המשימה מתארך, כלומר ככל שיש יותר שלבים ותלות בין שלבים כך גדל הסיכוי לכשל.

מה הארגון מרוויח מאבחון מסלולי פעולה ולא רק מתוצאה

הערך העסקי של אבחון כזה הוא קיצור זמן הנדסה וירידה בעלויות ניסוי וטעייה. ארגון שמנתח מסלולים יכול להחליט מהר יותר אם הבעיה היא בתכנון, בזיכרון, בביצוע כלי, או בקבלת החלטות, במקום להחליף מודל שוב ושוב. ארגון שמזהה דפוסי כשל מוקדם יכול גם להוסיף בקרות, מגבלות והרשאות מתאימות לפני פריסה רחבה.

חלק משמעותי מהמחקר מציע מסגרת שיפוט אוטומטית מסוג LLM as a Judge שמעוגנת במסלול הפעולה עצמו. מערכת זו לא מסתפקת בקביעה האם הייתה הצלחה או כישלון, אלא מסווגת ומייחסת את הכשל לשלב ולסיבה. החוקרים אימתו את המסגרת מול תיוג אנושי והציגו התאמה חזקה: ההסכמה בין מתייגים אנושיים הייתה קפא 0.61, וההסכמה בין השופט האוטומטי לשיפוט אנושי הגיעה לקפא 0.84.

מדד התאמה כזה מאפשר לראשונה לבצע אבחון רחב היקף בצורה סקיילבילית, וזה קריטי כאשר בארגון נאספים אלפי ריצות של סוכן על תהליכים שונים. המשמעות המעשית היא יכולת לבנות לוח מחוונים שמתרגם ריצות למפת כשלים, במקום לנהל דיון כללי ולא מדיד על איכות הסוכן.

איך לתרגם את זה לעניין יישים בארגון

הטמעה מוצלחת של סוכן אינה מתחילה בבחירת מודל, אלא בהגדרת מדידה לאורך מסלול. צוותים שמגדירים רק KPI של הצלחה סופית עלולים לקבל אשליית ביצועים גבוהה בסביבת בדיקות ולהיתקל בקריסות יקרות בפרודקשן. צוותים שמגדירים מדדי מסלול יכולים לשפר אמינות באופן שיטתי ולהוכיח תרומה עסקית מהר יותר.

שלב ראשון מומלץ הוא להגדיר תהליך עסקי אחד בעל ערך גבוה שבו יש יותר מעשרה צעדים ותלות בין צעדים, לדוגמה טיפול בתביעת לקוח מורכבת, פתיחת ספק חדש, או הכנת חבילת מסמכי רגולציה.
שלב שני מומלץ הוא ללכוד לכל ריצה מסלול מלא, כולל החלטות ביניים, קריאות לכלים, והסברים, ולא רק את הפלט הסופי.
שלב שלישי מומלץ הוא להפעיל שיפוט מסלולים אוטומטי כדי לקבל פילוח כשלים עקבי, ואז למפות השקעות לפי השפעה. תיקון ממוקד של שני צווארי בקבוק, למשל שיפור שימוש בכלי חיפוש פנימי והוספת בדיקות אימות לפני פעולות כתיבה, יכול להקטין משמעותית ריצות חוזרות ותמיכת אנליסטים. תוצאה כזו מתורגמת ישירות ל ROI דרך חיסכון שעות עבודה והפחתת עלויות תקלות.
שלב רביעי מומלץ הוא לבנות מדדי אמינות שמותאמים למשימות מסוג זה. למשל שיעור סטיות מהתוכנית, מספר חזרות על אותו צעד, ויכולת התאוששות מחריגה. מדדים אלה מאפשרים להשוות בין מודלים וארכיטקטורות לא רק לפי דיוק, אלא לפי יציבות תפעולית. מדדים אלה גם מאפשרים החלטה נקייה יותר מתי להעביר משימה לאדם, ומתי הסוכן בשל לאוטומציה מלאה.

המסקנה המרכזית היא שהתחום זקוק לא רק למודלים חזקים יותר, אלא לאבחון שיטתי של דפוסי כשל כדי לבנות סוכנים אמינים במשימות מורכבות וארוכות. חברה שמאמצת תפיסה זו תתקדם מהר יותר משלב דמו לשלב פרודקשן, ותקטין סיכוני תפעול שמאפיינים אוטונומיה חלקית.

צוותים שבונים או מטמיעים סוכנים מוזמנים להגדיר תהליך אחד לבחינת long-horizon, לאסוף מסלולים מלאים, ולהתחיל למדוד כשל לפי שלב וסיבה. ארגונים שמעוניינים יכולים לקבל מאיתנו תבנית מדידה מעשית, כולל הגדרת מדדי מסלול, עיצוב שופט אוטומטי, ותוכנית שיפור אמינות שמתחברת ישירות ל ROI.