חלון ההקשר כבר לא חייב להיות צוואר הבקבוק של AI ארגוני

Kuzmanko Team
לפני יום אחד (1)
זמן קריאה 2 דקות

תרשים מופשט של סוכן AI המנתח מסמכים גדולים מחוץ לחלון ההקשר

ארגונים שמנסים להכניס AI לתהליכי ליבה מגלים מהר מאוד שמודל חזק אינו מספיק. הבעיה מתחילה כאשר צריך לנתח דוח שנתי של מאות עמודים, מאגר קוד גדול, תיק משפטי או מחקר רפואי רב מסמכים. חלון ההקשר של המודל הופך לתקרה עסקית: הוא מגביל קלט, מייקר הרצות, ומייצר סיכון מוכר בשם אובדן באמצע, שבו מידע חשוב הנמצא במרכז המסמך מקבל פחות תשומת לב.

חלון ההקשר אינו אסטרטגיית AI ארגונית

חברת AWS פרסמה ארכיטקטורה מעניינת המבוססת על Recursive Language Models, או RLM, ומטרתה לעקוף את הצורך להזין מסמכים עצומים במלואם למודל. במקום להגדיל שוב ושוב את חלון ההקשר, המסמך נטען לסביבת עבודה חיצונית, והמודל הראשי מתפקד כמתכנן חקירה. הוא כותב קוד Python, מחפש מקטעים רלוונטיים, מפצל משימות, ורק כאשר נדרשת הבנה סמנטית עמוקה הוא מפעיל קריאת משנה למודל שפה על קטע קטן ומדויק.

זוהי נקודה חשובה מאוד למנהלים. פתרון בעיית ההקשר אינו רק שאלה של בחירת מודל עם מיליון טוקנים. במקרים רבים נכון יותר להפוך את המסמך לסביבת עבודה, ואת המודל לסוכן חוקר. כך ניתן לשמור משתני ביניים, לבדוק הנחות, לאתר טבלאות, להריץ חיפושים חוזרים, ולבנות מסלול ניתוח שמתקרב יותר לעבודת אנליסט אנושי מאשר לקריאה פסיבית של טקסט ארוך.

סוכנים וזיכרון עבודה משנים את כלכלת הטוקנים

היישום שהוצג משלב את Amazon Bedrock AgentCore Code Interpreter עם תזמור סוכן וקריאות ממוקדות למודלי יסוד. המשמעות ההנדסית היא הפרדה בריאה בין שלושה רכיבים: מודל שמקבל החלטות, סביבת קוד שמחזיקה זיכרון עבודה, ומודלי משנה שמופעלים רק על חלקים רלוונטיים. זהו דפוס שאנו רואים ככיוון מרכזי ביישומי Agentic AI, משום שהוא מפחית תלות בהזרקת טקסט עצומה ומאפשר שליטה טובה יותר בעלויות, עקיבות ובדיקת תוצרים.

במבחן Financial Multi-Document QA מתוך LongBench v2, שכלל שאלות על דוחות פיננסיים עד כשני מיליון תווים, גישת RLM הגיעה לשיעור הצלחה של 100 אחוז. גישת Base עם חלון של 200 אלף טוקנים הצליחה לעבד 46.7 אחוז מהשאלות בלבד, וגישת Long Context עם מיליון טוקנים הגיעה ל 93.3 אחוז. גם הדיוק השתפר: מודל Claude Opus 4.6 הגיע ל 80 אחוז עם RLM לעומת 66.7 אחוז בגישת Long Context, ומודל Claude Sonnet 4.6 עלה מ 60 אחוז ל 73.3 אחוז.

ייעוץ AI נכון מתחיל בארכיטקטורה ולא בכלי

כאשר ארגון בוחן פתרונות כאלה, אסור להתייחס אליהם כאל עוד פיצ'ר טכני. נדרש תכנון של תהליך עסקי מלא: אילו מסמכים נטענים, אילו חיפושים מותר לסוכן לבצע, מתי הוא מפעיל מודל משנה, איך נשמרים ממצאים, ואיפה אדם בלולאה נכנס לבקרה. אדם בלולאה הוא רכיב קריטי, אבל המטרה אינה להציב אדם על כל פעולה. המטרה היא לאפשר לאדם שפיקח אתמול על תהליך אחד לפקח מחר על עשרות ומאות תהליכי ניתוח מקבילים.

הגישה של RLM מתאימה במיוחד לניתוח דוחות כספיים, בדיקות תאימות, סקירת חוזים, חקר ספרות מקצועית וסקירת קוד. לצד זאת, היא אינה חינמית. היא מוסיפה זמן ריצה, קריאות מרובות למודלים ועלות תפעולית. לכן צריך להפעיל אותה במקומות שבהם דיוק, כיסוי ועקיבות שווים יותר מחיסכון נקודתי בטוקנים. עבור שאלות פשוטות, חיפוש רגיל או RAG בסיסי יספיקו. עבור מסמכים מורכבים, חקירה רקורסיבית היא כבר לא מותרות.

ארגונים צריכים לבנות יכולת פנימית להקמה וניהול של סוכני AI, כולל סביבת הרצה, מדיניות אבטחת מידע, ניטור עלויות, הערכת דיוק ותיעוד החלטות. מחלקות מערכות מידע יהפכו בהדרגה לגוף שמנהל כוח עבודה דיגיטלי של סוכנים, ולא רק מערכות תוכנה. מי שיתייחס ל AI כאל כלי צ'אט בלבד יפספס את הערך התפעולי האמיתי. מי שיבנה ארכיטקטורה נכונה סביב מודלים, קוד, זיכרון עבודה ובקרה אנושית, יוכל להפוך מגבלת הקשר ליתרון תחרותי.