בינה מלאכותית שמורידה 90% רעש: שיעור לניהול סיכונים

בינה מלאכותית בתחום הביטוח וניהול סיכוניםBy 3L3C

איך AI מוריד מעל 90% התראות שווא—ולמה זה שיעור קריטי לביטוח, בריאות וניהול סיכונים. גישה פרקטית לטריאז’ שמפחיתה עומס ומעלה דיוק.

ניהול סיכוניםבינה מלאכותיתביטוחסייברזיהוי הונאותבריאות דיגיטלית
Share:

Featured image for בינה מלאכותית שמורידה 90% רעש: שיעור לניהול סיכונים

בינה מלאכותית שמורידה 90% רעש: שיעור לניהול סיכונים

ב־11/12/2025 חוקר ישראלי בכיר הציג נתון שקשה להתעלם ממנו: בעזרת כלי שמחבר ניתוח סטטי לקוד יחד עם מודל AI, אפשר להפחית מעל 90% מההתראות השגויות — ובדרך למצוא פגיעויות אמיתיות בקוד בקנה־מידה ענק. והחלק שמדליק נורה אצל כל מנהל סיכונים? זה נעשה תוך יומיים ובעלות חישוב של פחות מ־80 דולר.

רוב הארגונים שאני פוגש — בביטוח, בבתי חולים, בביוטק וגם בחברות SaaS — לא נופלים בגלל שהם “לא מאובטחים”. הם נופלים בגלל שהם טובעים: יותר מדי התראות, יותר מדי חריגים, יותר מדי “אולי בעיה”. כשצוות לא מצליח להבחין בין אות לרעש, ניהול סיכונים הופך לניחוש.

הסיפור של Vulnhalla (כלי קוד פתוח שנבנה ב־CyberArk Labs) הוא לא רק סיפור סייבר. הוא תבנית עבודה שמסבירה איך בינה מלאכותית בניהול סיכונים צריכה להיראות: לא קסם, לא שאלה כללית למודל — אלא תהליך חשיבה מובנה שמייצר החלטות שניתן להסביר, למדוד ולשפר. וזה בדיוק מה שחסר בהרבה פרויקטים של AI בביטוח, בבריאות ובביוטכנולוגיה.

למה “רעש” הוא הסיכון האמיתי (ולא רק הפגיעות)

הנקודה המרכזית: יותר התראות ≠ יותר בטיחות. בפועל, עודף התראות מעלה סיכון תפעולי ומקטין את הסיכוי לזהות את הדברים שיכולים באמת לפגוע בארגון.

במחקר שהוצג לקראת Black Hat London, הצוות השתמש ב־CodeQL (מנוע ניתוח סטטי נפוץ) על מאגרי קוד עצומים כמו Linux Kernel, Redis ו־FFmpeg. הבעיה ידועה: כלים כאלה מסוגלים “לראות” המון דפוסים חשודים — ואז לייצר עשרות אלפי התרעות, שרובן הגדול False Positives. התוצאה דומה למה שקורה בביטוח עם חוקים נוקשים מדי לגילוי הונאה: כל לקוח שני נראה “חשוד”, ואז אף אחד כבר לא מתרגש.

איך זה מתחבר לביטוח וניהול סיכונים

במסגרת הסדרה “בינה מלאכותית בתחום הביטוח וניהול סיכונים”, כדאי לקרוא את המקרה הזה כמשל:

  • במערכות ביטוח: רעש הוא יותר מדי תיקים לבדיקה ידנית, יותר מדי “דגלים אדומים”, יותר מדי פניות למבוטח.
  • בבתי חולים: רעש הוא יותר מדי התראות קליניות (alert fatigue) — מה שעלול לגרום להתעלמות גם מהתראה קריטית.
  • בביוטכנולוגיה: רעש הוא יותר מדי תוצאות ניסוי שגויות/לא־מובהקות שמבזבזות זמן מעבדה יקר.

משפט אחד שראוי לתלות בחדר ישיבות: רעש הוא חוב סיכוני מצטבר.

מה באמת חדש ב־Vulnhalla: “תהליך חקירה” במקום שאלה אחת למודל

הנקודה החשובה ביותר במחקר היא לא שהשתמשו ב־AI — אלא איך השתמשו בו.

במקום לשאול את המודל “האם זו פגיעות?”, המערכת מובילה אותו דרך רצף בדיקה לוגי, בדומה לאנליסט אבטחה מנוסה:

  • איפה מוגדר ה־buffer?
  • מה הגודל שלו?
  • האם הוא משתנה לאורך הזרימה?
  • מה גודל היעד?
  • האם יש זרימת נתונים שיכולה לייצר חריגה מגבולות זיכרון?

זה נשמע פשוט, אבל זו כל התמונה: AI שעובד עם צ’ק־ליסט חכם ולא עם אינטואיציה.

למה זה עובד (ולמה זה קריטי גם בביטוח)

מודלים גנרטיביים טובים בזיהוי תבניות, אבל נופלים כשמבקשים מהם “להחליט” בלי מסגרת. כשמאלצים את המודל לעבור שלבים, מקבלים:

  1. הפחתת False Positives (במחקר: מעל 90%, ולעיתים עד 96% עבור מחלקות פגיעויות מסוימות)
  2. הסבריות (Explainability): אפשר להבין למה משהו סווג כבעיה אמיתית
  3. יכולת תפעולית: צוותים יודעים מה לעשות עם הפלט

בדיוק אותו רעיון מתאים לתהליכים ביטוחיים:

  • במקום “האם זו הונאה?”, בונים רצף בדיקה: עקביות מסמכים → חריגות תדירות → קשרים בין תביעות → התאמה לסוג פוליסה → חריגה סטטיסטית ביחס לקבוצת ייחוס.

כשבונים רצף כזה, ה־AI הופך ממכונת ניחושים ל־מנוע טריאז’ שמפנה את האנשים למקומות הנכונים.

“80 דולר ביומיים”: מה זה אומר על ROI במערכות בריאות וביטוח

הנתון של פחות מ־80 דולר הוא לא טריק שיווקי. הוא מסמן שינוי תפעולי עמוק: יכולת לבצע בדיקות סיכון בקצב גבוה ובעלות נמוכה.

בביטוח, ROI של AI לא נמדד רק בכמה תביעות נחסמו. הוא נמדד בהרבה שכבות:

  • ירידה בזמן טיפול ממוצע בתביעה
  • שיפור דיוק במודלי תמחור (pricing) בזכות נתונים נקיים יותר
  • הפחתת עלויות בדיקה ידנית
  • ירידה בתלונות לקוחות בעקבות “בדיקות יתר”

בבריאות ובביוטכנולוגיה, התרגום דומה:

  • פחות התראות שווא = פחות שחיקה של צוותים קליניים
  • יותר איתור חריגים אמיתיים = פחות אירועי בטיחות
  • זמן פיתוח קצר יותר (למשל, במכשור רפואי) כי מאתרים בעיות מוקדם

אם אפשר להוריד 90% רעש בקוד פתוח עצום, אין סיבה להשלים עם 90% רעש בתהליכי תביעות, תמחור או ניהול סיכונים.

מה ארגונים בישראל יכולים לאמץ כבר עכשיו (בלי להחליף מערכות)

המסר הפרקטי: לא חייבים “להטמיע AI בכל מקום”. צריך להתחיל ב־נקודת החנק: המקום שבו הצוותים מוצפים.

1) בנו שכבת טריאז’ מעל המנועים הקיימים

בביטוח, יש כבר:

  • מנועי חוקים
  • מערכות BI
  • מודלים סטטיסטיים
  • מערכות SIU (חקירות)

במקום לזרוק את הקיים, מוסיפים שכבת AI שמטרתה אחת: לדרג ולסנן.

מומלץ להגדיר שלוש רמות טיפול:

  1. לסגור אוטומטית (רעש כמעט ודאי)
  2. לשלוח לבדיקה מהירה (סיכון בינוני)
  3. להסלים לחקירה/התערבות (סיכון גבוה עם ראיות)

2) החליפו “שאלה כללית” בזרימת שאלות

כמו ב־Vulnhalla, מגדירים “מסלול החלטה”:

  • אילו נתונים תומכים?
  • אילו נתונים סותרים?
  • מה תנאי הסף להסלמה?
  • מה ייחשב “חוסר מספיק ראיות”?

היתרון: גם אם המודל טועה, הוא טועה באופן שניתן לאתר ולתקן.

3) מדדו את הדבר הנכון: Precision לפני Recall

במערכות התרעה, הרבה ארגונים רצים אחרי Recall (“לא לפספס שום דבר”). בפועל, כשאין כוח־אדם אינסופי, זה מייצר קריסה.

לתהליכים של ניהול תביעות וזיהוי הונאות, עדיף להתחיל ב:

  • Precision גבוה: שהמעט שמסומן יהיה באמת שווה זמן
  • ורק אחר כך להרחיב כיסוי

כך מורידים עלויות בלי לפגוע בחוויית לקוח.

4) שקיפות ובקרה: קוד פתוח כגישה, לא כדת

Vulnhalla הוצג כקוד פתוח ושקוף. בעולם הביטוח והבריאות לא תמיד אפשר “קוד פתוח” בגלל רגולציה, פרטיות וספקים. אבל אפשר לאמץ את העיקרון:

  • לוגיקה ברורה
  • תיעוד החלטות
  • אפשרות audit
  • הפרדה בין נתונים רגישים למודלים

בישראל, זה קריטי במיוחד בגלל דרישות רגולציה, אבטחת מידע וממשקי עבודה עם קופות חולים/בתי חולים.

שאלות שעולות תמיד (והתשובות הישירות)

האם AI כזה מגדיל סיכון משפטי אם הוא טועה?

כן, אם נותנים לו להחליט לבד. לא, אם מגדירים אותו כ־מסנן/ממליץ ומטמיעים בקרות, תיעוד ו־human-in-the-loop בנקודות הנכונות.

האם זה מתאים גם לארגון קטן?

דווקא כן. הסיפור של “פחות מ־80 דולר” הוא איתות שארגונים קטנים יכולים להתחיל מפיילוט ממוקד: טריאז’ לתביעות, סינון התראות אבטחת מידע, או ניהול סיכונים תפעולי במחלקה אחת.

מה הקשר לבינה מלאכותית בבריאות וביוטכנולוגיה?

אותו עיקרון: הורדת רעש, העלאת דיוק, ותהליך החלטה שמחקה מומחה. באבחון רפואי, למשל, היכולת להסביר למה מודל סיווג ממצא כחריג היא לא בונוס — היא תנאי בסיס.

הצעד הבא: להפוך “התראות” להחלטות עבודה

המחקר הישראלי הזה מציג אמת פשוטה: הערך של בינה מלאכותית בניהול סיכונים לא מתחיל בזיהוי—הוא מתחיל בסינון. ברגע שמורידים 90% רעש, פתאום יש לצוות זמן לטפל בעשר ההתראות שבאמת משנות.

אם אתם מובילים חדשנות בביטוח, מנהלים סיכונים בארגון בריאות, או בונים תהליכי איכות בביוטק — הייתי מתחיל בשאלה אחת: איפה אצלכם יש “עשרות אלפי התראות” שאף אחד כבר לא מצליח לעבד?

משם אפשר לבנות את מה ש־Vulnhalla מדגים היטב: לא עוד מערכת שמוסיפה עומס, אלא שכבה שמפנה את תשומת הלב למקומות שבהם היא באמת שווה כסף, בטיחות ואמון.