פתרון שיכול לחסוך זמן וכסף לארגונים באימוני Fine Tuning למודלים

Kuzmanko Team
8 בפבר׳
זמן קריאה 4 דקות

ארגונים רבים מאמצים מודלי שפה כדי להפעיל סוכנים, צאטבוטים ועוזרים פנימיים עם תכונות אופי מסוימות. בפועל עולה במהירות צורך עסקי עקבי: לשלוט בטון, ברמת פורמליות, במידת אמפתיה ובסגנון קבלת החלטות, לפי לקוח, ערוץ ושלב במסע. בפועל ארגונים נוטים לנסות לפתור זאת דרך פרומפטים ארוכים או דרך Fine Tuning, ושתי הגישות מתגלות כיקרות, איטיות ושבריריות.

ארגונים שמקדמים פתרונות בקנה מידה, מגלים שהפער אינו רק טכני אלא תפעולי. בפועל נוצר צוואר בקבוק של איטרציות, בדיקות, גרסאות ותיאום בין מוצר, משפטי, אבטחת מידע ושירות. בפועל כל שינוי קטן בפרסונה דורש סבב אישורים, הערכות סיכונים, ולעיתים גם אימון מחדש או לפחות ריענון של מערך בדיקות.

אתגר ה- Fine Tuning

ארגונים פונים ל Fine Tuning כדי לקבע התנהגות ולייצר עקביות, בעיקר כאשר פרומפטים מתחילים להתנפח ולייצר תוצאות לא יציבות. בפועל Fine Tuning הוא תהליך שגוזל זמן: איסוף נתונים, סינון והסרת מידע רגיש, תיוג, אימון, הערכה, תיקון, והפצה. בפועל גם כאשר מדובר בכוונון קל יחסית, העלויות מצטברות דרך שעות צוות, תשתיות חישוב, והרצה חוזרת של בדיקות איכות והגנות.

ארגונים נתקלים כאן בבעיה מבנית: כל פרסונה חדשה נתפסת כמו מוצר חדש. בפועל מחלקת שירות רוצה סוכן מרגיע, מחלקת גבייה רוצה סוכן ישיר, ומחלקת מכירות רוצה סוכן משכנע אך לא אגרסיבי. בפועל כאשר בונים לכל אחת מהפרסונות מודל או גרסה נפרדת, גדל החוב התפעולי, גדל היקף הבדיקות, וגדל הסיכון לסטיות התנהגות במצבים חריגים.

ארגונים גם משלמים מחיר הזדמנותי. בפועל זמן שמושקע באימון חוזר ובהתאמות פרסונה, הוא זמן שלא מושקע בהרחבת כיסוי תהליכים, בהוספת יכולות חיפוש ידע, או באוטומציה של צעדים תפעוליים. בפועל התוצאה היא מוצר AI שמתקדם לאט, עם תלות גבוהה במומחים ועם קושי להגיע ל ROI מהיר.

פתרון יישומי שמחליף חלק ניכר מהכוונון מחדש

מסגרת מעניינת הוצעה במחקר Interpolative Decoding שפורסם בדצמבר 2025. הגישה מציעה להפריד בין ידע ויכולת reasoning של המודל, לבין שכבת התנהגות הניתנת לשליטה בזמן אמת. בפועל במקום לאמן את המודל מחדש עבור כל סגנון, מגדירים כיווני התנהגות במרחב הפנימי, ומפעילים אותם בזמן יצירת התשובה באמצעות פרמטר עוצמה רציף.

ארגונים יכולים להבין זאת כמו לוח בקרה: אפשר להזיז מחוון של אמפתיה, ישירות, פורמליות או הומור, ולקבל שינוי עקבי בלי להחליף מודל ובלי לפתוח פרויקט אימון. בפועל המשמעות היא פחות גרסאות מודל, פחות דאטה לייבלינג, ופחות סבבי QA. בפועל זה גם משפר שליטה עסקית, כי ניתן להתאים פרסונה לערוץ כמו ווצאפ מול דואר אלקטרוני, או ללקוח חדש מול לקוח בסיכון נטישה.

ארגונים שמפעילים סוכנים רבים, יכולים להרוויח במיוחד מהעיקרון של קומבינציה. בפועל אפשר להפעיל כמה כיוונים יחד ולקבל פרסונה מורכבת, למשל שירותי אך תמציתי, או אסרטיבי אך מנומס. בפועל הגישה גם מאפשרת למדוד עקביות לאורך זמן, כי פרמטרים נשמרים ונבדקים באופן שיטתי במקום להסתמך על ניסוחים מילוליים משתנים.

לאילו תהליכים עסקיים זה מתאים

ארגונים יכולים ליישם שליטה מבוססת פרסונות בעיקר בתהליכים עם שונות גבוהה בין קהלים וסיטואציות. שירות לקוחות הוא מועמד טבעי, כי ערכים שונים של אמפתיה וישירות משנים שביעות רצון וזמני טיפול. מכירות וניהול לידים נהנים כאשר ניתן להתאים אסרטיביות לפי בשלות לקוח ולפי מדיניות ציות. משאבי אנוש ולמידה ארגונית נהנים כאשר אותו מנוע ידע יכול לדבר בשפה של מנהל מול עובד חדש. תפעול וכספים נהנים כאשר סוכן גבייה או סוכן בירורים נשאר עקבי, ענייני ומדויק, בלי להסתכן בשפה תוקפנית.

ארגונים בתחום רגולציה ובריאות יכולים להשתמש בכך בזהירות כדי לקבע תקשורת מקצועית, רגועה ולא מאבחנת, תוך התאמה לרמת חרדה של המשתמש. ארגונים במוצרי SaaS יכולים לבנות חוויית תמיכה שמתחלפת אוטומטית בין הדרכה סבלנית לבין פתרון מהיר, לפי יכולת משתמש ולפי מורכבות תקלה.

איך מטמיעים נכון לפי ההמלצה שלנו

ארגונים צריכים להתחיל מהגדרה תפעולית של פרסונות ולא מהגדרה ספרותית. מגדירים שלושה עד חמישה צירים מדידים בלבד, למשל אמפתיה, ישירות, פורמליות וביטחון. מגדירים לכל ציר טווחי עבודה מותרי מותג, ומסמנים מצבים שבהם אסור להגיע לקצוות, למשל גבייה או תלונה רגישה. מגדירים סט תרחישים עסקיים חוזרים ובונים עבורם דוגמאות תגובה איכותיות ברמות שונות של כל ציר.

ארגונים לאחר מכן בונים שכבת בקרה בזמן ריצה. מיישמים פרופיל פרסונה לכל ערוץ, סוג פנייה וסגמנט לקוח, ומחשבים ערכי עוצמה לפני הקריאה למודל לפי אותות כמו סנטימנט, כוונת נטישה, דחיפות ורגישות. מוסיפים מנגנון הגנה שמנטר מילות סיכון, מזהה הסלמה, ומחזיר את הפרמטרים למצב שמרני כאשר זוהתה חריגה.

ארגונים צריכים להתייחס למדידה כחלק מהמוצר. מגדירים מדדי הצלחה כמו זמן טיפול ממוצע, שיעור פתיחה מחדש, ציון שביעות רצון, שיעור המרות, ושיעור העברה לנציג. מגדירים גם מדדי בטיחות כמו שיעור שפה לא הולמת, הבטחות לא מאושרות, או הפרות מדיניות. מריצים ניסויי A B שבהם רק פרמטרי הפרסונה משתנים, וכך מבודדים השפעה עסקית בלי לשנות ידע או מקורות מידע.

ארגונים צריכים לשלב את השכבה עם ארכיטקטורת סוכנים רחבה. משאירים את RAG, את כללי הציות ואת כלי הביצוע כמו פתיחת קריאה או זיכוי, כקומות נפרדות. שומרים את פרסונת התגובה כקומה קלה להחלפה, כך שאפשר לשנות סגנון בלי לשנות הרשאות, כלים או ידע. יוצרים קטלוג פרסונות ארגוני, ומגדירים מי מוסמך לשנות פרמטרים, בדומה לניהול פיצרים.

טיפים פרקטיים שיקצרו זמן ויקטינו סיכון

ארגונים ירוויחו אם יתחילו בפרסונה אחת קריטית עם ערך עסקי ברור, למשל סוכן שירות בערוץ מרכזי, ואז ירחיבו לצירים נוספים. ארגונים ירוויחו אם יגבילו את מספר המצבים שבהם מותר לשנות פרסונה דינמית, כדי להימנע מחוויית משתמש לא עקבית. ארגונים ירוויחו אם ינהלו גרסאות לפרסונות כמו קוד, כולל בדיקות רגרסיה ושער כניסה לשינויים.

ארגונים צריכים לבחור מראש היכן Fine Tuning עדיין מוצדק. כוונון מחדש מתאים בעיקר כאשר צריך ידע חדש, פורמט קשיח, או עמידה בסטנדרט משפטי מחייב. שליטה בזמן ריצה מתאימה כאשר צריך גמישות, התאמה לקהל, ושינוי מהיר בלי מחזור פיתוח כבד. ארגונים שמבדילים בין שני הצרכים, מצמצמים בזבוז תקציב ומקצרים זמן להשקה.

ארגונים שמטמיעים שכבת שליטה פרסונלית בזמן אמת, יכולים להפוך את סגנון הסוכן למשתנה עסקי מנוהל ולא לפרויקט מחקר. בעינינו מדובר בכיוון שמחזק ROI, כי הוא מפחית תלות במחזורי אימון ומגדיל את קצב האיטרציות מצד מוצר ותפעול. מהניסיון שלנו בשטח, עצם היכולת להחליף פרסונה בלי לגעת בידע ובכלים, מקצרת משמעותית את הזמן בין תובנת שטח לשיפור במוצר.

ארגונים שרוצים להתקדם, יכולים להתחיל בבניית קטלוג פרסונות מדיד, להגדיר מחוונים ברורים, ולהריץ פיילוט של ארבעה שבועות עם מדדי שירות או מכירה. ארגונים שיבחרו נכון את התהליך הראשון, יראו מהר אם הפחתת Fine Tuning מתורגמת לפחות עלויות פיתוח, ליותר עקביות ולשיפור חוויית לקוח. ארגונים מוזמנים לפנות אלינו כדי למפות תהליכים מתאימים, להגדיר מדדים, ולבנות תכנית הטמעה מדורגת שמקטינה סיכון וממקסמת ערך.