כך תבנו אופטימיזציית פרומפטים עקבית לפרומפטים מסובכים, בלי לאבד שליטה על הפורמט

Kuzmanko Team
20 בינו׳
זמן קריאה 4 דקות

אם יצא לכם לבננות פרומפטים מסובכים מורכבים הבעיה הזו לא זרה לכם.. מודל שפה יכול לתת תשובה חכמה ורלוונטית, אבל ליפול בדיוק בדברים שהמערכת שלכם לא יכולה לסלוח עליהם: פורמט שגוי, שדה חסר, חריגה ממגבלת אורך, הוספת טקסט שלא התבקשה, או דילוג על שלב חובה.

הבעיה הזו גוזלת זמן רב כי ניסוי וטעייה על פרומפט אחד ארוך הופך מהר למבוך של תיקונים קטנים, בלי יכולת להבין מה באמת שיפר ציות ומה רק שיפר ניסוח. עלות הזמן הזו מתורגמת ישירות לכסף, במיוחד כאשר הזמן הוא של צוות LLMOps או צוות AI בארגון שמבצע בדיקות, ניתוח תקלות ותיקוני פרומפטים תחת לחץ.

פתרון אחד שאנו מיישמים בשטח הוא להפריד באופן עקבי בין תיאור המשימה לבין רשימת אילוצים ולשפר כל רכיב בלולאת אופטימיזציה מונחית מדדים עד להשגת ציות יציב.

למה אופטימיזציית פרומפטים נשברת דווקא בפרומפטים מסובכים

הכשל הנפוץ במערכות ארגוניות אינו תוכן לא נכון אלא נכונות פרוצדורלית לא עקבית. חברות מצפות לפלט שניתן לעיבוד אוטומטי, למשל רשומות CRM, טפסי שירות, דוחות כספיים מובנים או אובייקטים בפורמט קבוע, ולכן כל סטייה קטנה שוברת שרשרת אוטומציה שלמה.

בפועל, כל כשל כזה מייצר עלויות כפולות. עלות אחת היא ריצות נוספות של מודל והגדלת זמן תגובה. עלות שנייה היא בדיקות ידניות ותיקונים, ולעיתים גם פתיחת תקלה מול משתמשים פנימיים או לקוחות.

מהניסיון שלנו בשטח, כאשר תהליך עסקי תלוי בפלט מובנה, ירידה של כמה נקודות בציות יכולה לייצר עשרות אחוזי ריוורק. עלות ריוורק כזו נראית קטנה ברמת אירוע, אבל מצטברת מהר כאשר המערכת רצה אלפי פעמים ביום.

איך אופטימיזציית פרומפטים מונחית מדדים מייצרת ציות יציב לפי המחקר

מסגרת שהוצגה במחקר Enhancing LLM Instruction Following: An Evaluation-Driven Multi-Agentic Workflow for Prompt Instructions Optimization נותנת תוקף אמפירי לפתרון זה. המחקר מזהה במדויק את מקור הכאב: מודלים מפיקים תוכן רלוונטי אבל נכשלים בעמידה באילוצים פורמליים, כמו פורמט, סדר צעדים, שדות חובה או מגבלות פלט.

התרומה המרכזית במחקר היא הפרדה מכוונת בין שני רכיבים. רכיב ראשון הוא תיאור המשימה הראשית, כלומר מה צריך להפיק מבחינה תוכנית. רכיב שני הוא אילוצים וקריטריוני קבלה, כלומר איך בדיוק הפלט חייב להיראות כדי להיחשב תקין.

המחקר מציע לולאת שיפור איטרטיבית שמונעת על ידי ציון ציות כמותי. צוות או מערכת מריצים גרסאות, מחשבים ציון ציות, ואז סוכנים שונים מבצעים שכתוב ממוקד לרכיב המתאים במקום לערבב הכל יחד.

המחברים מדווחים שהגישה מפיקה ציוני ציות גבוהים יותר במודלים כמו Llama 3.1 8B ו Mixtral-8x7B. תיאור התוצאה במחקר הוא שיפור משמעותי בציון הציות באמצעות פרומפטים מתוקנים, גם כאשר התוכן הסמנטי כבר היה סביר.

נקודה חשובה לניהול ציפיות היא שהתקציר הזמין מציין שיפור משמעותי אך אינו מפרט מספרים מדויקים או פונקציית ציון מלאה. גישה נכונה לארגון היא לאמץ את המסגרת, ולהגדיר פונקציית ציות מדידה שמתאימה לפלט שלכם ולסיכון העסקי.

תרגום עסקי מהיר: איפה זה מייצר ROI

חיסכון ישיר מגיע מהקטנת כשלי פורמט שמפעילים ריוורק. חיסכון עקיף מגיע מהפחתת QA ידני ומהקטנת תקלות במעלה השרשרת, למשל כרטיסי תמיכה שנפתחים בגלל הזנה שגויה למערכות.

תמחור גס עוזר להצדיק השקעה בתהליך. שעת עבודה של מהנדס AI או LLMOps עולה לרוב מאות שקלים, ולעיתים יותר. חבילת פרומפטים ארגונית יכולה לדרוש עשרות שעות של ניסוי וטעייה, ולכן תהליך שמקצר איטרציות ומייצב ציות מייצר החזר השקעה מהר, במיוחד במערכות עם נפח ריצות גבוה.

מסגרת יישום דה פקטו בארגון: שלב אחר שלב

שלב ראשון מגדירים במפורש את תיאור המשימה הראשית בנפרד מהאילוצים. שלב זה כולל דוגמאות קלט ופלט רצויות, אבל בלי לשתול עדיין את כל כללי הפורמט בתוך אותו ניסוח.

שלב שני כותבים רשימת אילוצים כקריטריוני קבלה שניתנים לבדיקה. רשימת אילוצים טובה מתארת שדות חובה, טיפוסים, מגבלות אורך, איסורים מפורשים ותנאי סדר פעולות. רשימת אילוצים טובה גם כוללת מה אסור להחזיר, למשל טקסט מחוץ לפורמט או הסברים מיותרים.

שלב שלישי מגדירים מדד ציות כמותי. מדד ציות בסיסי יכול להיות סכימה של בדיקות בינאריות, למשל האם הפלט תקין, האם כל השדות קיימים, האם יש חריגות אורך, האם נשמר סדר הצעדים. מדד מתקדם יכול לתת משקל גבוה יותר לכשלים קריטיים שמפילים אוטומציה.

שלב רביעי מריצים לולאת שיפור איטרטיבית. שלב זה כולל יצירת גרסאות פרומפטים, הרצה על סט בדיקות קבוע, חישוב ציון ציות, ותיקון ממוקד. תיקון ממוקד אומר שמתקנים או את תיאור המשימה או את האילוצים, אבל לא מערבבים תיקונים אקראיים בשניהם יחד.

שלב חמישי מעבירים את המפרט לניהול גרסאות ולממשל מודלים. שלב זה כולל תיעוד גרסאות פרומפט, שמירת סט בדיקות רגרסיה, והגדרת סף ציות לשחרור. שלב זה הוא ההבדל בין פרומפט שמצליח בדמו לבין מערכת שמחזיקה ייצור.

על מה להקפיד, מה לעשות וממה להימנע

הקפדה חשובה היא להגדיר קריטריוני קבלה שניתנים למדידה אוטומטית ולא ניסוחים כלליים. הקפדה חשובה נוספת היא להחזיק סט תרחישים קבוע שמייצג את הקצוות של התהליך העסקי, ולא רק מקרים קלים.

עשייה מומלצת היא להפריד בין מטרת התוכן לבין מטרת הפורמט, ואז לבנות בדיקות שמענישות חריגות פורמט יותר מחוסר אלגנטיות ניסוחית. עשייה מומלצת נוספת היא לתעד החלטות פרומפט כמו שמנהלים קוד, כולל שינוי קטן באילוץ ומדידת השפעתו.

הימנעות קריטית היא לא להעמיס את הפרומפט בהסברים ארוכים שמנסים לכסות כל מצב. הימנעות קריטית נוספת היא לא למדוד ציות על דוגמה אחת או שתיים, כי כך נוצרת אופטימיזציה נקודתית שמתרסקת בפריסה.

סיכום מעשי הוא שציות הוא מוצר בפני עצמו, ולא תכונת לוואי של פרומפט מנוסח יפה. מסגרת רב סוכנית מונחית מדדים מאפשרת להפוך בניית פרומפטים מתהליך יצירתי אקראי לתהליך הנדסי שמייצר יציבות.

פנייה מומלצת היא להתחיל בתהליך אחד שבו הפורמט הוא תנאי הפעלה, להגדיר אילוצים ומדד ציות, ולבנות לולאת שיפור קצרה של כמה סבבים. פעולה כזו יוצרת מהר תשתית שיכולה להתרחב לשאר תהליכי הארגון.