בנו אינטואיציה למסווג רשת נוירונים באקסל—והפכו אותה לשפה מעשית לזיהוי הונאות, טריאז’ ותיעדוף סיכונים בביטוח ובריאות.

מסווג רשת נוירונים באקסל: בסיס ל-AI בביטוח ובריאות
רוב הארגונים רוצים “בינה מלאכותית” אבל נתקעים בשלב הרבה יותר בסיסי: להבין למה מודל מסווג עושה מה שהוא עושה. כשאין אינטואיציה—אין אמון. וכשאין אמון—אין הטמעה, לא בתהליך תביעות ביטוח ולא בצנרת טריאז’ בבית חולים.
הטריק שעובד לי הכי טוב ללמד וליישר קו עם צוותים לא-טכניים הוא דווקא משהו שנשמע מיושן: לבנות מסווג רשת נוירונים קטן באקסל. לא כדי “להחליף” פייתון, אלא כדי להפוך את מה שקורה מאחורי הקלעים לשקוף: איך נבנים גבולות החלטה, למה יש יותר מפתרון אחד, ואיך אימון (Backpropagation) הוא בסך הכול גרדיאנט על פונקציה מורכבת.
בפוסט הזה אני לוקח את הרעיון מהמאמר המקורי (מסווג רשת נוירונים באקסל) ומתרגם אותו לשפה של ביטוח וניהול סיכונים, תוך שמירה על הקשר לסדרת התוכן שלנו “בינה מלאכותית בתחום הבריאות והביוטכנולוגיה”—כי בסוף, בשני העולמות אנחנו מסווגים: מי בסיכון, מה חריג, ואיפה כדאי לעצור ולבדוק.
למה דווקא מסווג—ולמה אקסל מפתיע לטובה
מסווג (Classifier) הוא כלי עבודה יומיומי בביטוח, בריאות וניהול סיכונים: זיהוי הונאות, סיווג תביעות למסלולי טיפול, דירוג דחיפות, גילוי אנומליות בתשלומים, ואפילו סינון “תיקים שמצריכים רופא/שמאי בכיר”.
אקסל מפתיע לטובה כי הוא מאלץ אותנו לעשות משהו שרוב הספריות מסתירות:
- להפריד בין Forward Propagation (מה המודל מחשב) לבין Backpropagation (איך מעדכנים פרמטרים)
- לראות מספרים ביניים במקום “קופסה שחורה”
- להבין את ההיגיון של גבול החלטה כשאין הפרדה ליניארית
זו בדיוק נקודת הכאב בארגונים: מנהל תביעות/סיכונים או מנהל איכות רפואית לא צריכים לדעת לכתוב TensorFlow—אבל כן צריכים להבין למה המודל החליט “כן/לא”, ומה יגרום לו לטעות.
האינטואיציה החשובה: שכבה חבויה אחת יכולה להספיק
התשובה הישירה: בהרבה בעיות סיווג פשוטות, שכבה חבויה אחת עם מספר קטן של נוירונים כבר יכולה לייצר גבולות החלטה לא-ליניאריים.
במאמר המקורי משתמשים בדאטה קטן מאוד (12 תצפיות, פיצ’ר אחד, יעד בינארי) שבו רגרסיה לוגיסטית לא יכולה לפתור את הבעיה כי אין הפרדה ליניארית.
המהלך החכם הוא לחשוב על זה כך:
- מתחילים מפיצ’ר אחד (למשל
x) - יוצרים ממנו שני “חיתוכים” באמצעות שתי פונקציות לוגיסטיות (שני נוירונים בשכבה החבויה)
- לוקחים את שני הפלטים האלה כפיצ’רים חדשים ומפעילים עליהם שוב לוגיסטית כדי לקבל הסתברות סופית
במילים פשוטות: לא חייבים “עמוק” כדי להיות לא-ליניארי. לפעמים מספיק “לכופף” את המרחב פעם אחת.
מה זה אומר בביטוח?
דוגמה פרקטית: סיווג תביעות רכוש ל”חשוד/לא חשוד”. גם אם יש לכם פיצ’ר אחד משמעותי (למשל “סטייה מהעלות הצפויה”), לעיתים הסיכון לא עולה בצורה ישרה: יש “חלון” באמצע שנחשב סביר, ושתי קצוות שנחשבות חריגות. שכבה חבויה עם שני נוירונים יכולה לבנות בדיוק את הצורה הזו.
ומה זה אומר בבריאות?
בטריאז’ או ניטור מדדים, הרבה פעמים “נורמלי” נמצא באמצע, ודווקא ערכים נמוכים מאוד או גבוהים מאוד מאותתים סיכון. מסווג לא-ליניארי קטן מסביר היטב את המציאות הזאת.
Forward Propagation באקסל: להפוך רשת נוירונים לפונקציה שקופה
התשובה הישירה: Forward propagation הוא פשוט חישוב סדרתי של נוסחאות: מכפלה במשקולות, הוספת הטיות, הפעלת פונקציית אקטיבציה, ואז חזרה על זה עד הפלט.
במבנה המדובר יש:
- שכבה חבויה אחת עם שני נוירונים
- נוירון פלט אחד (לוגיסטי) שמחזיר הסתברות ל-Class 1
- סה״כ 7 פרמטרים (Weights + Biases)
מה שהופך את זה ליעיל ללמידה הוא הצגה מפורשת של ערכי ביניים (למשל A1, A2) במקום נוסחאות מפלצתיות.
למה מספר הנוירונים באמת משנה
יותר נוירונים = יותר גמישות = יותר דרכים להתאים את הדאטה.
זה נשמע טוב, אבל בעולם האמיתי (ביטוח/בריאות) זה גם:
- סיכון גבוה יותר ל-Overfitting (ללמוד “רעש”)
- יותר תלות באיכות הנתונים ובממשל נתונים
- קושי גדול יותר להסביר את ההחלטה לרגולטור/ביקורת פנים
אני בעד להתחיל קטן. מודל קטן מספק “חיישן” טוב להבנה: האם בכלל יש אות בנתונים? האם הפיצ’רים הגיוניים? האם התהליך העסקי ברור?
Backpropagation באקסל: למה האימון לא תמיד מתכנס (ומה עושים)
התשובה הישירה: Backpropagation הוא חישוב גרדיאנטים (נגזרות חלקיות) לכל פרמטר, ואז עדכון פרמטרים באמצעות Gradient Descent כדי למזער Log Loss.
בבעיה בינארית, פונקציית ההפסד הטבעית היא Log Loss (כמו ברגרסיה לוגיסטית). ומה שמעניין כאן במיוחד הוא לא הנוסחה—אלא ההתנהגות:
1) אתחול פרמטרים משנה הכול
אותה ארכיטקטורה בדיוק יכולה:
- להתכנס מהר לפתרון טוב
- להתכנס לאט
- להיתקע במינימום מקומי
זה נשמע תיאורטי, אבל בביטוח זה קורה כל הזמן: צוות מכין מודל לזיהוי הונאות, מריץ פעם אחת—והתוצאות “לא יציבות”. ואז מתחילה האמירה המסוכנת: “AI לא עובד אצלנו”. בפועל, לפעמים רק צריך:
- אתחול אחר
- קצב למידה (Learning Rate) שונה
- נירמול נתונים
- או שינוי קל בארכיטקטורה (עוד נוירון/פחות נוירון)
2) יש יותר מפתרון אחד “טוב”
במאמר מודגש רעיון חשוב: עם שני נוירונים חבויים, לכל נוירון יכול להיות שיפוע חיובי או שלילי—כלומר יש 4 קונפיגורציות בסיסיות שיכולות לייצר גבול החלטה דומה.
משמעות עסקית: אל תיבהלו אם שני מודלים שונים נותנים תוצאות דומות אבל עם פרמטרים אחרים. מה שמעניין אתכם הוא:
- ביצועים על דאטה שלא נראה
- יציבות לאורך זמן
- מדדי הוגנות (Fairness) והטיות
- הסבריות (Explainability)
3) “לולאת for” באקסל היא שיעור בממשל מודלים
כשבונים את האיטרציות בטבלה, רואים בעיניים:
- מה קורה לעלות (Cost) בכל צעד
- מתי העלות מפסיקה לרדת
- האם קצב הלמידה גדול מדי (קפיצות) או קטן מדי (זחילה)
בפרויקטים אמיתיים בביטוח ובריאות, זו בדיוק המשמעת שצריך: ניטור אימון, ניהול ניסויים, ותיעוד. אקסל כאן הוא לא כלי ייצור—הוא כלי “מעבדה”.
איך מחברים את זה לביטוח, סיכונים ובריאות: 3 שימושים שמרוויחים מאינטואיציה
התשובה הישירה: מי שמבין מסווג קטן ושקוף יכול לבנות תהליכים אוטומטיים טובים יותר—גם כשבסוף מריצים את המודל בסביבה מתקדמת.
1) סיווג תביעות למסלולי טיפול (Claims Triage)
במקום “כולם לאותו תור”, מסווג בינארי/רב-מחלקתי יכול להפנות:
- תביעה פשוטה למסלול מהיר
- תביעה מורכבת לשמאי/חוקר
- תביעה חריגה לבקרת איכות
האינטואיציה של גבול החלטה עוזרת להגדיר נכון את ה-Thresholds ולדעת איפה שמים “בדיקה ידנית”.
2) זיהוי הונאות (Fraud Detection) כמערכת החלטה—לא רק מודל
מודל שמחזיר הסתברות להונאה הוא רק חלק. צריך גם:
- מדיניות פעולה לפי רמות סיכון
- מדידה של False Positives (כמה לקוחות ישרים אנחנו מעכבים)
- מדידה של False Negatives (כמה הונאות חומקות)
כאן הבנה של Log Loss והסתברויות (ולא רק דיוק) קריטית.
3) שימושים מקבילים בבריאות דיגיטלית
אותם עקרונות משמשים ל:
- סיווג דחיפות פניות במוקד
- זיהוי תבניות חריגות במדדים לבישים
- סינון בדיקות שדורשות רדיולוג בכיר (תיעדוף)
כשמדובר בבריאות, ההשלכות של סף החלטה לא נכון הן כבדות. לכן מודל שקוף ללמידה הוא בסיס לתרבות עבודה נכונה.
שאלות שכולם שואלים (ועוזר לענות עליהן מוקדם)
“אם שכבה אחת מספיקה, למה בכלל Deep Learning?”
כי בעיות אמיתיות (תמונות, טקסט, קול, סדרות זמן) דורשות ייצוגים היררכיים. עומק מאפשר לבנות תכונות מורכבות מתכונות פשוטות בצורה יעילה יותר, ולעיתים גם להתאמן טוב יותר ולהכליל טוב יותר.
“למה להתחיל באקסל אם בסוף משתמשים בספריות?”
כי אקסל נותן אינטואיציה ובקרת איכות. אחרי שמבינים את המסלול: קלט → שכבה חבויה → הסתברות → הפסד → גרדיאנט → עדכון, הרבה יותר קל לשאול את השאלות הנכונות גם כשעובדים עם מערכת מתקדמת.
“מה הסכנה הכי גדולה בהטמעה בארגון ביטוח/בריאות?”
מודל שמצליח בפיילוט ונכשל בפרודקשן בגלל נתונים לא עקביים, שינויי תהליך, או היעדר ניטור. ההבנה הבסיסית של אימון והתכנסות עוזרת לזהות מוקדם איפה המערכת fragile.
הצעד הבא: ממודל באקסל לפתרון שמייצר לידים וערך
המהלך החכם בעיניי הוא להשתמש בתרגיל האקסל לא כקוריוז, אלא כשלב 0 בפרויקט אמיתי: סדנה קצרה לצוות עסקי+אנליטי שמגדירה יחד מה מסווגים, מה מחיר טעות, ואיפה שמים ספי החלטה.
אם אתם בעולם הביטוח וניהול סיכונים—הבנה של מסווג רשת נוירונים בסיסי היא אחד הדברים שמקצרים הכי הרבה זמן בין “רעיון AI” לבין מערכת שעובדת בפועל. ואם אתם מגיעים מזווית הבריאות והביוטכנולוגיה—זו אותה שפה בדיוק, רק עם תוצאות קליניות במקום תוצאות כספיות.
משפט שאני חוזר עליו בפגישות: מודל שלא מבינים—לא מטמיעים. מודל שמבינים—אפשר לשפר.
איזה תהליך אצלכם הכי “צועק” לסיווג בינארי ברור—תביעות, חריגות תשלום, או תיעדוף מטופלים?