עבודה עמוקה ב-AI: כך משפרים החלטות בביטוח ובריאות

בינה מלאכותית בתחום הבריאות והביוטכנולוגיהBy 3L3C

עבודה עמוקה, תיעוד ותנועה: ארבעה הרגלים שמרימים פרויקטי AI בביטוח ובבריאות מפרוטוטייפ למערכת שמקבלת החלטות טובות יותר.

AI בביטוחניהול סיכוניםAI בבריאותפרודוקטיביות לצוותי דאטהזיהוי הונאותMLOpsעבודה עמוקה
Share:

Featured image for עבודה עמוקה ב-AI: כך משפרים החלטות בביטוח ובריאות

עבודה עמוקה ב-AI: כך משפרים החלטות בביטוח ובריאות

בחודשים האחרונים אני שומע את אותו משפט שוב ושוב ממנהלים בישראל — גם בקופות חולים ובבתי חולים, וגם אצל מבטחים וחברות ניהול סיכונים: “יש לנו נתונים, יש לנו כלים, אבל המודלים לא ‘מתיישבים’ בפרודקשן.” זה לא חוסר בתקציב או בכישרון. ברוב המקרים, זו בעיית עבודה.

אחרי כמה שנים טובות שבהן בינה מלאכותית זזה מהמעבדה אל מוקדי השירות, חדרי המיון ומחלקות התביעות, משהו התבהר: הפער בין “יש מודל” לבין “יש ערך עסקי/קליני” נקבע פחות על ידי ארכיטקטורה ויותר על ידי הרגלים. עבודה עמוקה, גבולות זהות בריאים, תנועה יומיומית וכתיבה — ארבעה נושאים שנראים “רכים” — מתגלים כגורמי ביצוע קריטיים כשבונים AI שמקבל החלטות על כסף, בריאות וסיכון.

הפוסט הזה ממשיך את סדרת התוכן שלנו על בינה מלאכותית בתחום הבריאות והביוטכנולוגיה, אבל יושב בדיוק על קו התפר עם הקמפיין “בינה מלאכותית בתחום הביטוח וניהול סיכונים”: אותו סט כלים, אותן מלכודות, ואותן שיטות עבודה שמבדילות בין פיילוט נחמד לבין מערכת שמורידה הונאות, משפרת חיתום, ומקצרת זמן לאבחון.

עבודה עמוקה: היכולת שמבדילה בין מודל יפה למערכת שעובדת

התשובה הישירה לשאלה “מה הכי חסר לצוותי AI?” היא שעות רצופות של ריכוז. לא “עוד פגישה ליישור קו”, ולא “עוד כלי ניטור”. ברגע שהעבודה מחולקת לרסיסים של 10–15 דקות, איכות ההחלטות יורדת — וכשמדובר בביטוח ובריאות, זה מתורגם לטעויות יקרות.

בפיתוח מערכות ML יש שלושה סוגי עבודה שמענישים הפרעות:

  • תיאוריה והחלטות מוצריות-סטטיסטיות: מה היעד? מה פונקציית ההפסד? איך מודדים הטיה? איך מגדירים “סיכון” באופן שמסתדר רגולטורית?
  • קוד ודיבוג פייפליין: פיצ’רים נעלמים, דגימות “נמרחות”, והדריפט מגיע לפני שמישהו שם לב.
  • כתיבה: מסמך דרישות, תיעוד, נימוק מודל לוועדת סיכונים, או הסבר קליני לצוות רפואי.

איך “תשומת לב” של המודל מתחברת לתשומת לב של הצוות

יש הקבלה מעניינת (ושימושית): הרבה מערכות מודרניות — כולל זיהוי חריגות והונאות — נשענות על מנגנוני attention או לפחות על רעיון דומה: להקצות קשב לחלקים הנכונים של המידע.

  • בביטוח: מודל שמנתח תביעה מחפש דפוסי חריגה — שילובים של ספק/תאריך/פרוצדורה/סכום/רצף אירועים.
  • בבריאות: מודל טריאז’ או זיהוי ספסיס מחפש אותות חלשים בתוך רצף מדדים, תרופות ונתוני מעבדה.

כדי לבנות מערכת כזו, הצוות עצמו חייב לעבוד בצורה שמאפשרת “attention אנושי”: זמן להבין את הנתונים לעומק, לזהות תבניות, ולהחליט מהו Signal ומהו Noise. אם היום בנוי מפינגים, ה”attention” עובר למיילים — לא לסיכון.

פרקטיקה שעובדת בישראל: “בלוקי 2×90” והגדרה תפעולית של שקט

מה שעבד אצלי ואצל לקוחות: לקבוע שני בלוקים של 90 דקות בשבוע לכל אחד מאנשי הליבה (דאטה, מוצר, רגולציה/סיכונים). לא “אם יסתדר”. ביומן.

בבלוק כזה מגדירים מראש:

  1. טלפון על שקט, הודעות מושתקות.
  2. משימה אחת בלבד (למשל: “לנתח תקלות drift במודל תביעות רכב” או “להגדיר מדד רגישות/סגוליות לטריאז’”).
  3. תוצר כתוב קצר בסוף (פסקה, טבלה, החלטה).

זה נשמע קטן — אבל אחרי 4–6 שבועות זה מייצר אפקט מצטבר: פחות חזרות אחורה, פחות “שוב נשבור את הפייפליין”, ופחות וויכוחים כי הכול מתועד.

לא להזדהות יתר עם המודל: איך שומרים על שיקול דעת תחת לחץ

מערכות AI בביטוח ובריאות הן מפעל של שונות (variance). ניסוי אחד מצליח, שני נופל. דאטה משתנה. מדיניות עסקית מתעדכנת. רגולטור משנה ניסוח. מי שמחבר את הערך העצמי שלו לגרף AUC האחרון — נשחק מהר.

זה קריטי במיוחד בשני תחומים:

  • בריאות: כשמודל לא עומד ביעד, הנטייה היא או “להסתיר” את הכשל או “לרוץ” לפתרון מהיר. שתי התגובות מסוכנות.
  • ביטוח וניהול סיכונים: כשיש לחץ להוריד הונאות, קל לגלוש למודל אגרסיבי שמייצר יותר מדי false positives ואז פוגע בלקוחות טובים ובאמון.

כלל עבודה שאני ממליץ עליו: להפריד “מי אני” מ”מה רץ בפרודקשן”

בצוותים בשלים עושים הפרדה ברורה:

  • הכשל הוא של היפותזה/דאטה/יישום, לא של האדם.
  • מדדים הם אינדיקציה, לא תעודת זהות.
  • כל מודל הוא מוצר זמני שמחייב תחזוקה.

משפט שאני אוהב לשים במסמך פתיחה של פרויקט:

“אנחנו לא נמדדים לפי כמה מהר המודל ‘נראה טוב’, אלא לפי כמה מהר אנחנו מבינים למה הוא לא עובד.”

זה משנה את התרבות. ובפרויקטים רגישים (קליני/פיננסי), תרבות היא מנגנון בטיחות.

תנועה היא ביטוח מקצועי: למה צוותי דאטה חייבים לזוז

התשובה הישירה: תנועה יומיומית משפרת ביצועי חשיבה ומורידה עייפות החלטתית. זה לא “בריאות כללית” בלבד. זה כלי עבודה.

בפרויקטים של AI יש שני מצבי קיצון:

  • ימים של ריכוז עמוק ש”סוחטים” מנטלית — ואז הגוף מתכווץ: כתפיים עולות, נשימה מתקצרת.
  • ימים של פגישות — ואז אין כמעט תנועה בכלל.

בבריאות ובביטוח זה פוגש אותנו בנקודה כאובה: החלטות שגויות קורות כשאנשים עייפים. ואם הצוות שמגדיר ספים, מאשר פיצ’רים, או מבצע QA למודל — עייף כרונית — תופיע רשלנות קטנה שתעלה ביוקר.

מיקרו-הרגלים שמחזיקים לאורך זמן (גם בחורף הישראלי)

בדצמבר, כשכבר מחשיך מוקדם והלו”ז צפוף, מה שהכי עובד הוא “קטן וקבוע”:

  • 10 דקות הליכה אחרי ארוחת צהריים (גם במתחם המשרד/המסדרון).
  • פגישות 1:1 בהליכה כשאפשר, במיוחד שיחות חשיבה.
  • 2 דקות מוביליטי בין בלוקים (צוואר, כתפיים, ירכיים).

זה נשמע שולי, אבל התוצאה מורגשת: פחות “שבירה” בערב, יותר יציבות בקבלת החלטות, ויכולת אמיתית לעשות עבודה עמוקה בלי להרגיש מרוסק.

כתיבה ותיעוד: מה שמקצר רגולציה ומונע פערי הבנה

התשובה הישירה: כתיבה היא מנגנון איכות. בביטוח ובריאות היא גם מנגנון הגנה: מול רגולטור, מול ביקורת פנימית, ומול ועדות מקצועיות.

כשצוות כותב, שני דברים קורים:

  1. מגלים חורים בהבנה. אם אי אפשר להסביר למה פיצ’ר מסוים מותר/אסור, כנראה שלא באמת מבינים אותו.
  2. נוצר זיכרון ארגוני. בעוד חצי שנה יתחלף מנהל מוצר, וההחלטות יישארו.

תבנית תיעוד קצרה שמייצרת שקט

בכל מודל שאני מלווה, אני מבקש דף אחד (כן, אחד) עם:

  • מטרת המודל והחלטה שהוא תומך בה (למשל: “דירוג סיכון לתביעה חשודה”).
  • נתונים: מקורות, חלונות זמן, חסרים קריטיים.
  • מדדים: לא רק AUC — גם precision/recall בנקודת עבודה, ושיעור false positives צפוי.
  • סיכונים: הטיה, פרטיות, drift, תלות בספק.
  • תהליך שינוי: מי מאשר עדכון גרסה ומתי.

הדף הזה חוסך אינסוף דיונים מחדש. הוא גם מקל משמעותית כשמגיעים לשלב של Explainability מול גורמים עסקיים/קליניים.

שאלות נפוצות (שעולות תמיד) על AI בביטוח ובריאות

איך עבודה עמוקה קשורה לזיהוי הונאות בביטוח?

כי זיהוי הונאות דורש ניסוח נכון של “חריגה”, בחירת ספים, והבנה של עלות טעות. זה לא נעשה בין הודעה להודעה. בלי זמן רצוף, מקבלים מודל שמייצר רעש ומעמיס על חוקרים.

מה החיבור הפרקטי בין AI בבריאות ל-AI בניהול סיכונים?

בשני המקרים מדובר במערכות החלטה עם השלכות גבוהות: החמצה (false negative) או אזעקת שווא (false positive). אותו חשיבה על מדדים, הטיות, ניטור ו-Drift.

מה הדבר הראשון שכדאי למדוד אחרי שעליתם לפרודקשן?

שני דברים: שיעור התראות שווא (כי הוא שוחק אמון) ו-Drift בנתונים (כי הוא שוחק ביצועים). אם יש יכולת — למדוד גם “זמן לטיפול” בתהליך העסקי/קליני.

מה עושים מכאן: תוכנית 30 יום לצוותי AI בביטוח, בריאות וביוטק

אם הייתי צריך להמר על שיפור מהיר בלי “להחליף מודל”, הייתי בוחר בשלושת הצעדים הבאים ל-30 יום:

  1. קיבוע שני בלוקי עבודה עמוקה בשבוע לכל איש ליבה, עם תוצר כתוב.
  2. דף תיעוד אחד לכל מודל לפי התבנית (מטרה, נתונים, מדדים, סיכונים, שינוי).
  3. הרגל תנועה מינימלי: 10 דקות הליכה ביום + 2 דקות מוביליטי בין בלוקים.

ההשפעה המצטברת של זה גדולה יותר מכל “עוד פיצ’ר” שמכניסים בחיפזון.

בסדרת התוכן שלנו על בינה מלאכותית בתחום הבריאות והביוטכנולוגיה, אנחנו מדברים הרבה על מודלים, נתונים ותהליכים קליניים. אבל האמת היא שהגורם שמכריע אם AI יצליח במציאות הישראלית — עם רגולציה, עומסים ואפס סבלנות לשגיאות — הוא שיטת העבודה.

אם אתם בונים או מטמיעים AI לזיהוי הונאות, חיתום חכם, ניהול תביעות, טריאז’ רפואי או אנליטיקה קלינית: אפשר להתקדם מהר בלי לשרוף את הצוות — אבל זה דורש עבודה עמוקה, תיעוד חד, ומשמעת אנושית פשוטה.

השלב הבא מבחינתי הוא לשאול שאלה אחת בכל פרויקט: איזו החלטה אנחנו רוצים לשפר בעוד 90 יום — ואיזה “שקט תפעולי” נדרש כדי להגיע לשם?