אמינות מודלי AI היא תנאי ליישום עסקי אמיתי

Kuzmanko Team
לפני 3 ימים
זמן קריאה 2 דקות

מערכת בינה מלאכותית ארגונית נמדדת לפי אמינות עקבית ולא רק לפי יכולת מרשימה

אמינות מודלי AI הפכה בשנה האחרונה לשאלה עסקית ולא רק טכנולוגית. ארגונים כבר אינם מתרשמים רק מהדגמה שבה מודל כותב מסמך, מסכם חוזה או מייצר קוד. השאלה החשובה היא האם אותה תוצאה תתקבל גם בפעם העשירית, מול לקוח אמיתי, תחת עומס, עם מידע חלקי ועם השלכות כספיות או משפטיות.

אמינות מודלי AI מתחילה בהבנת מרחב האפשרויות

מודל שפה אינו שולף אמת מתוך מאגר מסודר. הוא דוגם המשך סביר מתוך מרחב אפשרויות עצום. כאשר מודל מייצר רצף של מאות טוקנים מתוך אוצר מילים של עשרות אלפי אפשרויות, מספר המסלולים האפשריים גדול בהרבה ממה שמערכת עסקית יכולה לבדוק ידנית. בתוך המרחב הזה קיימים אזורים שימושיים, מדויקים וקוהרנטיים, אבל קיימים גם אזורים שנשמעים משכנעים ומובילים לטעות.

הזיות אינן תמיד תקלה קלאסית בקוד. לעיתים הן דגימה בעלת הסתברות לא אפסית, אך בעלת ערך עסקי נמוך או מסוכן. לכן עוד דאטה, עוד פרמטרים ועוד כוח מחשוב אינם פתרון מלא. תוכן אינטרנטי כולל סתירות, הטיות, ניסוחים מקומיים ושגיאות שחוזרות על עצמן. מודל גדול יכול ללמוד דפוס דומיננטי, גם כאשר הדפוס אינו נכון.

הזיות במודלים נובעות גם מביטחון מדומה

אחד הכשלים הנפוצים בארגונים הוא לפרש פלט הסתברותי כביטחון אמיתי. פונקציית Softmax יכולה להפוך פער קטן בין ערכי logits להפרש שנראה דרמטי. תשובה שקיבלה ציון גבוה אינה בהכרח תשובה נכונה, אלא תשובה שהמודל העדיף במסגרת החישוב הפנימי שלו. כאשר התשובה מנוסחת בעברית רהוטה ובטון סמכותי, מנהלים ועובדים נוטים להאמין לה יותר ממה שראוי.

טמפרטורה גבוהה מחדדת את הבעיה. היא יכולה להוסיף גיוון ויצירתיות, אך גם מגדילה את הסיכוי לסטייה מאזורים צפויים בהתפלגות. לכן תהליך שיווקי ליצירת רעיונות יכול לסבול יותר שונות, בעוד תהליך פיננסי, משפטי או תפעולי חייב לעבוד עם מגבלות הדוקות יותר, בדיקות מבנה, אימות מקורות וספי ביטחון מחמירים.

ניהול סיכוני AI דורש תשתית ולא רק פרומפט טוב

כאשר מלווים ארגונים בהטמעת AI, הפער הגדול ביותר אינו נמצא בדרך כלל במודל עצמו אלא במערכת שסביבו. פתרון יציב כולל שכבת ידע מבוקרת, מנגנוני RAG עם מקורות מאושרים, בדיקות אוטומטיות לתקינות תשובה, מדדי הערכה לפי תרחישי קצה, ניטור שוטף ומנגנון הסלמה לאדם. אדם בלולאה הוא רכיב קריטי, אך אם כל פעולה מחייבת אישור ידני לא נוצרה קפיצת פרודוקטיביות. המטרה היא שעובד אחד יפקח על מאות תהליכים, ולא יהפוך לצוואר בקבוק חדש.

ארגונים צריכים למדוד מודלים כמו שמודדים תהליך ייצור. יש להגדיר שיעור תשובות תקינות, שיעור הסלמות, עלות לטוקן, זמן תגובה, אחוז כשלי מדיניות ואיכות מול סט בדיקות קבוע. כיול הסתברויות באמצעות Platt Scaling או Isotonic Regression, הערכת אי ודאות בשיטות כמו Monte Carlo Dropout, ובדיקות עובדתיות חיצוניות הופכים הדגמה יפה למערכת שניתן לנהל.

העמדה שלנו ברורה: AI אינו פרויקט טכני בלבד. נדרשים ידע אקדמי, ניסיון עסקי, הבנה ניהולית ותשתית ארגונית להקמה וניהול של סוכנים. לצד אוריינות AI לעובדים, חברות חייבות לפתח יכולת פנימית לבנות סוכני AI, לבדוק אותם, להפעיל אותם ולתחזק אותם. מחלקות מערכות מידע יהפכו בהדרגה גם למחלקות משאבי אנוש עבור סוכנים, עם אחריות על הרשאות, ביצועים, הכשרה ומשמעת תפעולית.

הדגמה מוצלחת מוכיחה אפשרות. מערכת אמינה מוכיחה חזרתיות. מנהלים שרוצים ערך אמיתי צריכים להתחיל במיפוי תהליכים שבהם טעות ניתנת לגידור, לבנות שכבת בקרה לפני הרחבה, ולבחור כלים לפי יכולת ניהול, אבטחת מידע ואיכות ניטור ולא לפי רעש שיווקי. בעולם הסתברותי, יתרון תחרותי נוצר אצל מי שמצליח להפוך אי ודאות לתהליך מבוקר.