פיתוח AI | Kuzmanko

סקיילינג PostgreSQL: מה אפשר ללמוד מהארכיטקטורה של OpenAI על מיליוני בקשות בשנייה

חברת OpenAI פרסמה השבוע הצצה נדירה לאופן שבו תשתית הנתונים של ChatGPT וה API עובדת בקנה מידה קיצוני. חברה אחת משרתת לפי הדיווח כ 800 מיליון משתמשים, ובמקביל מציגה יכולת טיפול במיליוני בקשות בשנייה על בסיס Azure PostgreSQL. חברה אחת לא פתרה את הסקייל דרך קסם ארכיטקטוני יחיד, אלא דרך שורה ארוכה של החלטות הנדסיות ותפעוליות שמפחיתות סיכון, מייצבות ביצועים, ומורידות עלויות כשל. חברה אחת בחרה מודל שמרני יחסית של כותב יחיד עם כמעט חמישים רפליקות קריאה גלובליות. חברה אחת דיווחה על זמ

Kuzmanko Team

19 במרץזמן קריאה 4 דקות

סקיילינג PostgreSQL: מה אפשר ללמוד מהארכיטקטורה של OpenAI על מיליוני בקשות בשנייה

איך לשפר מחזור פיתוח אלגוריתמים בארגון עם סוכן AI שמפחית ניסויים יקרים

ארגונים שמפתחים מודלים, סימולציות או תשתיות ביצועים נתקלים באותה בעיה שוב ושוב. הזמן והעלות של כל ניסוי בודד גדלים מהר יותר מקצב הלמידה של הצוות. התוצאה היא תהליך שיפור איטי שמבזבז שעות מומחים, שעות מעבדה ושעות GPU. מחקר חדש מציג את Aster, סוכן AI לשיפור מחזור פיתוח, גילוי ושיפור תוכניות באופן אוטונומי, שמנסה להקטין דרמטית את מספר האיטרציות עד לשיפור משמעותי. הגישה הזו ממירה את השאלה הארגונית ממה האלגוריתם הנכון, לשאלה איך מייצרים לולאת שיפור יעילה סביב מדד הצלחה ברור. המשמעו

Kuzmanko Team

5 במרץזמן קריאה 3 דקות

איך לשפר מחזור פיתוח אלגוריתמים בארגון עם סוכן AI שמפחית ניסויים יקרים

חלון ההקשר והשפעתו על יישום סוכני AI) AI Agents) ב- 2026?

איך השינוי הדרמטי מ- 8 אלף טוקנים ב- 2023 ועד ל 10 מיליון טוקנים ב 2026 משפיע על יישום סוכני AI? מודלי שפה עברו בשלוש השנים האחרונות קפיצה שמרגישים בה בכל פרויקט ארגוני, מחלונות הקשר (Context Windows) של אלפי טוקנים בודדים אל מציאות שבה מיליוני טוקנים הם יעד תכנוני מעשי. מנהלים וצוותי הנדסה חווים את השינוי לא רק כעוד שיפור ביצועים, אלא כעדכון יסודי של כללי המשחק בבניית תהליכים מורכבים. השינוי בולט בפרט סביב אייג'נטים שמבצעים תכנון, שימוש בכלים ושרשראות החלטה ארוכות. במאמר זה

Jonathan Kuzmanko

4 בפבר׳זמן קריאה 4 דקות

חלון ההקשר והשפעתו על יישום סוכני AI) AI Agents) ב- 2026?

מערכות RAG בארגונים: הארכיטקטורה שהפכה לתשתית קריטית

מערכות RAG עברו בשנים האחרונות מהדגמות מרשימות לתשתית שמחזיקה מוצרי בינה מלאכותית בייצור, במיוחד בארגונים שמחויבים לדיוק, לציטוט מקורות ולשינויי ידע תכופים. ארכיטקטורת Retrieval-Augmented Generation משלבת חיפוש במאגר ידע חיצוני עם מודל שפה גנרטיבי, וכך מפחיתה הסתמכות על ידע פרמטרי ומקטינה הזיות. השאלה כבר איננה האם להשתמש בפתרון כזה, אלא איך לבנות אותו כך שיעבוד תחת עומס, תחת רגולציה ותחת דרישות אבטחה, ובמקביל ישמור על יחס עלות-תועלת. מערכות RAG בארגונים: מה זה, ומה השתנה ב-2

Jonathan Kuzmanko

2 בפבר׳זמן קריאה 5 דקות

מערכות RAG בארגונים: הארכיטקטורה שהפכה לתשתית קריטית

סוכנים חכמים בארגון: מה שיטת Netomi מלמדת על הטמעת בינה מלאכותית בקנה מידה גדול

חברת OpenAI פרסמה היום סקירה שמדגישה איך Netomi בונה ומתזמרת מערכות סוכנים חכמים בארגונים גדולים. הפלטפורמה משרתת לקוחות Fortune 500 כמו יונייטד איירליינס ודראפטקינגס, ומיישמת שילוב פרקטי בין מודלים מהירים למודלים המתמחים בתכנון רב שלבי. השאלה הארגונית החשובה אינה האם סוכנים יכולים לדבר, אלא האם סוכנים יכולים לבצע תהליכים אמיתיים באופן אמין, מהיר ומבוקר. סוכנים חכמים בארגון: שלוש יכולות ליבה שמפרידות ניסוי מעבודה בייצור חברות רבות משקיעות בצוותי חדשנות שמדגימים יכולות מרשימות

Kuzmanko Team

28 בינו׳זמן קריאה 3 דקות

סוכנים חכמים בארגון: מה שיטת Netomi מלמדת על הטמעת בינה מלאכותית בקנה מידה גדול

למה מודלים מרצים אותנו ואיך להימנע מהסכמת יתר ולקבל תשובות אותנטיות

תופעת ההסכמה והארכה בטח שמתם לב לזה: אתם שואלים את ChatGPT, Claude או כל מודל שפה אחר שאלה פשוטה, ומקבלים בתגובה הרצאה שלמה. או גרוע מכך: אתם מציגים טענה שגויה, והמודל מסכים איתכם בנימוס במקום לתקן אתכם. התופעות האלה, המכונות "דידקטיזם" (נטייה להרצות) ו"סיקופנטיות" (הסכמת יתר), הן לא באג אקראי אלא תוצר ישיר של האופן שבו מודלים אלה אומנו. מחקרים שפורסמו לאחרונה חושפים את תופעת "מודלים מרצים והסכמת יתר": מודלי שפה גדולים מעדיפים באופן שיטתי להסכים עם המשתמש על פני אמירת האמת, ו

Jonathan Kuzmanko

25 בינו׳זמן קריאה 5 דקות

למה מודלים מרצים אותנו ואיך להימנע מהסכמת יתר ולקבל תשובות אותנטיות

כך תבנו אופטימיזציית פרומפטים עקבית לפרומפטים מסובכים, בלי לאבד שליטה על הפורמט

אם יצא לכם לבננות פרומפטים מסובכים מורכבים הבעיה הזו לא זרה לכם.. מודל שפה יכול לתת תשובה חכמה ורלוונטית, אבל ליפול בדיוק בדברים שהמערכת שלכם לא יכולה לסלוח עליהם : פורמט שגוי, שדה חסר, חריגה ממגבלת אורך, הוספת טקסט שלא התבקשה, או דילוג על שלב חובה. הבעיה הזו גוזלת זמן רב כי ניסוי וטעייה על פרומפט אחד ארוך הופך מהר למבוך של תיקונים קטנים, בלי יכולת להבין מה באמת שיפר ציות ומה רק שיפר ניסוח. עלות הזמן הזו מתורגמת ישירות לכסף , במיוחד כאשר הזמן הוא של צוות LLMOps או צוות AI באר

Kuzmanko Team

20 בינו׳זמן קריאה 4 דקות

כך תבנו אופטימיזציית פרומפטים עקבית לפרומפטים מסובכים, בלי לאבד שליטה על הפורמט

אוטומציה בחברות וארגונים 2026: כל מה שצריך לדעת

שנת 2026 מסמנת נקודת מפנה בעולם האוטומציה בחברות וארגונים. מה שהתחיל כטרנד טכנולוגי הפך למציאות יומיומית בארגונים מכל הגדלים. אוטומציות בחברות וארגונים כבר אינן מותרות למחלקות IT בלבד, אלא הופכות לכלי עבודה מרכזי של צוותים עסקיים, מנהלי תפעול ואנשי מקצוע בכל התחומים. המעבר מאוטומציות פשוטות המבוססות על חוקים קבועים לסוכני AI אוטונומיים שיודעים לקבל החלטות ולבצע משימות משנה את חוקי המשחק. ארגונים שמטמיעים פלטפורמות אוטומציה מתקדמות מדווחים על חיסכון של 40% עד 60% בזמן עבודה ע

Jonathan Kuzmanko

19 בינו׳זמן קריאה 9 דקות

אוטומציה בחברות וארגונים 2026: כל מה שצריך לדעת

איך Tolan בנתה אפליקציית קול המותאמת לשיחות פתוחות ומתמשכות באמצעות GPT-5.1

חברת OpenAI דיווחה כי הסטארט אפ Tolan, מבית Portola, בנה אפליקציית קול שמכוונת לשיחות פתוחות ומתמשכות על בסיס GPT-5.1. החברה תכננה את המוצר סביב שיחה חיה ומתפתחת ולא סביב רצף פקודות קצרות. הממצאים כוללים שיפורי ביצועים מדידים, ירידה של 30% בהחמצות זיכרון ועלייה של יותר מ 20% בשימור משתמשים ליום המחרת. איך Tolan בנתה אפליקציית קול באמצעות GPT-5.1 חברת Tolan מיקדה את הארכיטקטורה ב 3 נקודות חיכוך שמאפיינות שיחות קול: תנודתיות גבוהה בנושא, רגישות קיצונית להשהיה, והצורך בזיכרון עק

Kuzmanko Team

12 בינו׳זמן קריאה 3 דקות

איך Tolan בנתה אפליקציית קול המותאמת לשיחות פתוחות ומתמשכות באמצעות GPT-5.1

סקירת קוד מבוססת AI: מה הטמעת Codex של OpenAI ב Datadog מלמדת על הפחתת סיכון תקלות

חברות תוכנה גדולות מנהלות כיום סיכון תפעולי שלא נובע מחוסר כישרון הנדסי, אלא מעודף מורכבות מערכתית. כל שינוי קטן בקוד עלול להפעיל שרשרת תלויות חוצת שירותים, לשבור חוזי API, או להחליש כיסוי בדיקות בדיוק בנקודות הצימוד המסוכנות ביותר. גישה זו הופכת את סקירת הקוד מנוהל איכות מקומי למנגנון ניהול סיכונים ארגוני. חברות שמצליחות לחבר סקירה לקונטקסט מערכתי זוכות ביתרון ישיר במדדי אמינות ועלות תקלות. חברת Datadog, שמפעילה פלטפורמת אובזרבביליות בקנה מידה עולמי, מדגימה כיוון פרקטי: שיל

Kuzmanko Team

11 בינו׳זמן קריאה 3 דקות

סקירת קוד מבוססת AI: מה הטמעת Codex של OpenAI ב Datadog מלמדת על הפחתת סיכון תקלות

אמון מכויל בינה מלאכותית: איך ארגונים מתמודדים עם הזיות של מודלי שפה

הזיות של מודלי שפה הן לא תקלה נדירה, אלא רעש תפעולי שחוזר בכל ארגון שמאמץ בינה מלאכותית גנרטיבית. הבעיה מופיעה בוודאי בשימושי צללים של בינה מלאכותית, כאשר עובדים מעתיקים מידע לכלים לא מורשים ומקבלים תשובות שנשמעות סמכותיות, אבל גם במערכות מאושרות שבהן המודל פועל על מידע חלקי, על ניסוח מעורפל או על הקשר עסקי שלא הוגדר היטב. שאלה עסקית מרכזית עולה שוב ושוב: כיצד עובדים מתמודדים בפועל עם הזיות, ומה אפשר ללמוד מההתנהגות שלהם כדי לשפר תהליכי הטמעה, לצמצם סיכונים ולהגדיל תשואה מפרו

Kuzmanko Team

9 בינו׳זמן קריאה 3 דקות

אמון מכויל בינה מלאכותית: איך ארגונים מתמודדים עם הזיות של מודלי שפה

זיכרון ארגוני בשיחות ארוכות: מסגרת שמשפרת RAG ומצמצמת טעויות במערכות בינה מלאכותית

ארגונים שמטמיעים עוזרים מבוססי מודלי שפה גדולים מגלים מהר שהבעיה אינה רק איכות תשובה נקודתית, אלא עקביות לאורך זמן. שיחות ארוכות חוצות ימים ושבועות, ואז חלון ההקשר נגמר, והמערכת נאלצת לקצר היסטוריה או לסכם אותה. תהליך הקיצור מוחק החלטות ותלויות, ותהליך הסיכום משנה ניסוחים מחייבים ומעלים ניואנסים קריטיים. תוצאה ישירה של אובדן הקשר היא סיכון תפעולי. מערכת שירות לקוחות יכולה לחזור על שאלות שכבר נענו, מערכת מכירות יכולה לשכוח חריגי תמחור שאושרו, ומערכת ניהול פרויקטים יכולה לשנות

Kuzmanko Team

7 בינו׳זמן קריאה 3 דקות

זיכרון ארגוני בשיחות ארוכות: מסגרת שמשפרת RAG ומצמצמת טעויות במערכות בינה מלאכותית

ה- PaTH Attention במודלי שפה גדולים: פריצת דרך בהבנת טקסטים ארוכים והשלכות לארגונים

חוקרי אוניברסיטת MIT ומעבדת MIT IBM Watson AI Lab מציגים מנגנון מיקום חדש בשם PaTH Attention, שמטרתו לשפר את יכולת ההבנה וההיגיון של מודלי שפה גדולים בטקסטים ארוכים. השיפור מכוון במיוחד למעקב אחרי שינויי מצב והקשרים לוגיים לאורך מסמכים גדולים, תוך יעילות חישובית שמאפשרת הרצה מעשית על GPU. המשמעות הארגונית ברורה, יכולות LLM הופכות מדיבור כללי על מסמכים ליכולת עבודה אמינה יותר עם תהליכים עתירי מסמכים, שינויי גרסאות ותיעוד מתגלגל. מודלי שפה גדולים ו PaTH Attention: מה השתנה בקיד

Kuzmanko Team

6 בינו׳זמן קריאה 4 דקות

ה- PaTH Attention במודלי שפה גדולים: פריצת דרך בהבנת טקסטים ארוכים והשלכות לארגונים

הזרקת פרומפט (Prompt Injection): למה ארגונים צריכים להתייחס לדפדפני AI כסיכון קבוע ולא כתקלה זמנית

ארגונים מאמצים דפדפני AI וסוכנים שמבצעים משימות מקצה לקצה, אבל במקביל נפתח וקטור תקיפה שהופך לבעיה מבנית. מדובר בהזרקת הנחיות לתוך תוכן שהמודל קורא, באופן שגורם לו לעקוף כוונות משתמש, מדיניות אבטחה או נהלים תפעוליים. חברת OpenAI העריכה כי כלים מסוג דפדפן AI עשויים להישאר פגיעים לתקיפות מהסוג הזה לאורך זמן, גם עם שכבות הגנה מתקדמות. גישה ניהולית נכונה מתחילה בהבנה שהפתרון אינו רק טכני, אלא תפעולי, חוזי ופיננסי. הזרקת פרומפט (Prompt Injection) כמכפיל סיכון בדפדפני AI תקיפת הזרק

Kuzmanko Team

5 בינו׳זמן קריאה 4 דקות

הזרקת פרומפט (Prompt Injection): למה ארגונים צריכים להתייחס לדפדפני AI כסיכון קבוע ולא כתקלה זמנית

אחזור ידע מודע-נימוק: איך MCTS משדרג עוזרי ידע ארגוניים ומצמצם טעויות במענה

מחקר חדש מציע תובנה פרקטית למנהלים שמפעילים עוזרי ידע ארגוניים: הבעיה המרכזית אינה רק איכות המודל, אלא איכות תהליך החיפוש שמזין אותו. המחקר מציג שיטה שבה תהליך השליפה ממאגרי ידע הופך לחלק אינטגרלי מתהליך החשיבה של מודל השפה, ולא שלב מקדים טכני. התוצאה היא שיפור דיוק, הגדלת מגוון מקורות והפקת נימוק רב-שלבי, תוך הפחתת שליפות מיותרות שמובילות לתשובות משכנעות אך שגויות. אחזור ידע מודע-נימוק: מה המחקר מגלה ולמה זה חשוב לארגונים עתירי מסמכים המחקר Reasoning in Action: MCTS-Driven K

Kuzmanko Team

5 בינו׳זמן קריאה 3 דקות

אחזור ידע מודע-נימוק: איך MCTS משדרג עוזרי ידע ארגוניים ומצמצם טעויות במענה