PISA/SISA/NSISA: új optimalizálási irány deep modellekhez. Stabilabb tréning heterogén adatokon, gyorsabb egészségügyi AI fejlesztés.

Stabilabb deep learning tréning: PISA az egészségügyi AI-ban
A legtöbb csapat ott veszít hónapokat az egészségügyi AI-projekteken, ahol a laikusok nem is sejtenék: nem a modellarchitektúrán, hanem a tanításon. Ugyanaz a radiológiai képanyag, ugyanaz a GPU-park, mégis egyik kísérlet szépen konvergál, a másik szétcsúszik, a harmadik pedig „csak” túl lassú ahhoz, hogy belátható időn belül validálható legyen.
2025 végére az egészségügyi szervezetek és beszállítók egyszerre két nyomás alatt dolgoznak: egyrészt nő az igény a nagy pontosságú diagnosztikai modellekre (képalkotás, triázs, szöveges leletek), másrészt a fejlesztés költségei és a szabályozási elvárások (auditálhatóság, stabilitás, reprodukálhatóság) miatt minden tréningfutásnak számítania kell. Itt jön képbe egy friss kutatás, amely az optimalizálás „motorházteteje alatt” cserél alkatrészt: a Preconditioned Inexact Stochastic ADMM – röviden PISA.
A csavar: bár ez a téma elsőre tisztán gépi tanulásnak tűnik, a következményei nagyon is üzletiek. Egy gyorsabban és stabilabban tanítható modell hamarabb mehet klinikai validációra, hamarabb kaphat belső jóváhagyást, és – ha minden rendben – hamarabb segíthet betegutakat rövidíteni. És igen: ugyanaz a gondolkodásmód (elosztott adatok, heterogén források, költségnyomás) a kiskereskedelemben és e-kereskedelemben is ismerős, ezért ez a cikk szépen illeszkedik a sorozatunkba.
Mit old meg a PISA, és miért pont most lett fontos?
Válasz röviden: a PISA egy olyan tréningeljárás, amely kifejezetten jól kezeli az elosztott, heterogén adatokat, és lazább feltételekkel is megbízhatóan konvergál – ami az egészségügyben szinte alapállapot.
A deep modellek tanításának mainstream útja továbbra is az SGD-család: SGD, Adam, AdamW, RMSprop, és ezek variánsai. Ezek gyorsan implementálhatók, jól skálázódnak, de van egy kényelmetlen valóság: az egészségügyi adatok ritkán „szépen viselkednek”.
Adatheterogenitás: a csendes költséggyilkos
Elosztott tanításnál (például több kórház, több telephely, vagy intézményenként külön adat-silo) gyakori, hogy az egyes csomópontok adateloszlása eltér:
- egyik helyen több a sürgősségi eset,
- másikban több az onkológiai kontroll,
- eltérnek a készülékek (CT/MR gyártó), protokollok, annotációs szokások,
- különböző a betegpopuláció demográfiája.
Ez a data heterogeneity elméletben is és gyakorlatban is rontja a klasszikus sztochasztikus optimalizálók teljesítményét: lassabb konvergencia, instabil lépésméret-érzékenység, több „elszálló” futás.
Miért lett ez 2025-ben még fájóbb?
Mert a modellek nagyobbak, a validáció drágább, a compute pedig nem végtelen. A fejlesztés sokszor ott csúszik el, hogy:
- túl sok hyperparaméter-tuning kell,
- túl lassú a finomhangolás (fine-tuning),
- a többintézményes beállításban romlik a tréning stabilitása.
A PISA állítása az, hogy ehhez a környezethez jobban passzoló optimalizálási keretet ad.
PISA közérthetően: ADMM + sztochasztika + előkondicionálás
Válasz röviden: a PISA az ADMM (Alternating Direction Method of Multipliers) logikáját viszi át sztochasztikus, deep learning környezetbe, és „előfeszíti” a lépéseket előkondicionálással, hogy stabilabban haladjon.
Az ADMM-t sokan onnan ismerik, hogy ügyesen bont fel problémákat részekre: mintha azt mondaná, „te foglalkozz a saját részeddel, én pedig a végén összehangollak titeket”. Elosztott tanításban ez intuitív:
- helyi worker(ek) tanulnak a saját adataikon,
- egy központi mechanizmus koordinálja, hogy ne menjenek szét.
A cikk PISA néven egy előkondivionált, inexact (nem teljes pontosságú) sztochasztikus ADMM algoritmust javasol. A „nem teljes pontosság” itt nem igénytelenséget jelent, hanem pragmatizmust: nem kell minden belső lépést végletekig kiszámolni, ami a deep modelleknél különben drága lenne.
A kulcspont a feltételekben van
A szerzők egyik fontos állítása: a módszer konvergenciájához elég a gradiens Lipschitz-folytonossága korlátos tartományon, és nincs szükség több olyan szigorú feltételre, amit más sztochasztikus módszereknél gyakran látunk.
Ez gyakorlati nyelvre fordítva azt jelenti: kevesebb „ha minden csillag együtt áll” típusú előfeltétel, több esély arra, hogy a tréning valódi, zajos, heterogén adat mellett is normálisan végigfusson.
SISA és NSISA: két praktikus variáns, amire érdemes figyelni
Válasz röviden: a PISA keret két hatékony változata a SISA és az NSISA, amelyek könnyebb számítással próbálnak nagy stabilitást adni – ez a klinikai AI fejlesztésben különösen értékes.
A paper szerint a PISA többféle precondition-t támogat:
- másodrendű információ (kvázi-Newton jelleg),
- második momentum / második moment (Adam-szerű intuíciók),
- ortogonalizált momentum Newton–Schulz iterációval.
A két kiemelt, számításban hatékony változat:
- SISA: a második momentum jellegű előkondicionálást használja (compute-barát).
- NSISA: Newton–Schulz iterációkkal ortogonalizált momentumot alkalmaz (szintén skálázható, párhuzamosítható).
A szerzők beszámolója alapján ezek több deep learning feladaton is jobban teljesítettek állapot-of-the-art optimalizálókhoz képest (látás, LLM, RL, GAN, RNN).
Mi köze ennek a radiológiához és diagnosztikához?
Ha egy modell tanítása stabilabb és gyorsabb, annak nagyon konkrét hatásai vannak:
- Kevesebb eldobott tréningfutás: a „megint divergens lett” típusú run-ok nemcsak pénzt, hanem heteket visznek el.
- Gyorsabb iteráció a klinikai visszajelzésre: hamarabb lehet radiológusokkal, patológusokkal validálni.
- Könnyebb többintézményes finomhangolás: ahol a heterogenitás a legnagyobb.
Nekem az a tapasztalatom, hogy egészségügyi projektekben a „time-to-first-clinically-usable baseline” az egyik legjobb belső mérőszám. Ha az optimalizálás ezen farag, az üzleti és betegellátási szinten is nyerő.
Gyakorlati forgatókönyv: többkórházas mellkasröntgen modell
Válasz röviden: PISA-jellegű módszer akkor tud sokat adni, amikor a site-ok közötti különbségek miatt az SGD/Adam instabil vagy lassú.
Képzeljünk el egy tipikus többforrású setupot:
- 3 kórház, mindegyiknél más röntgengép és protokoll,
- eltérő arányban fordulnak elő pneumonia, ödéma, COPD,
- annotáció: egyik helyen szigorúbb, másiknál „gyorsított”.
A klasszikus federated / distributed tréningnél gyakori jelenség, hogy a helyi modellek „elindulnak” más irányba. Ilyenkor a csapat:
- tanulási rátát csökkent,
- agresszívebb regularizációt tesz be,
- több szinkronizációt kér,
…és ezzel gyakran stabilabb lesz, de lassabb is. A PISA ADMM-kerete pont azt ígéri, hogy a koordináció matematikailag erősebb, és az előkondicionálás segít, hogy ne a lépésméret-tologatás legyen a fő stratégia.
Mit mérnék egy pilotban? (konkrét KPI-javaslat)
Ha egészségügyi AI csapatban kipróbálnám SISA/NSISA jellegű optimalizálással, nem csak „loss”-t néznék:
- Idő az első elfogadható AUC/IoU/F1 küszöbig (óra/nap)
- Run-failure ráta (divergencia, NaN, instabilitás)
- Site-onkénti teljesítmény szórása (fairness és generalizáció jelzés)
- GPU-óra / 1% AUC javulás (nagyon jó költségmutató)
Ezek a mutatók a kórházi beszállítói oldalon és a belső innovációs csapatoknál is érthetők, és szépen összekötik a matematikát az üzlettel.
Miért releváns ez a kiskereskedelem és e-kereskedelem AI-sorozatban?
Válasz röviden: a heterogén adatok és az elosztott tanítás ugyanúgy jelen van a kiskereskedelemben, mint az egészségügyben – és az optimalizálás minősége ott is időt és pénzt spórol.
A sorozatunkban sokat beszélünk személyre szabott ajánlórendszerekről, kereslet-előrejelzésről, készletkezelésről. Ezeknél is tipikus a heterogenitás:
- eltérő országok/régiók vásárlói viselkedése,
- franchise boltok adatai különböző minőségben,
- csatornák (web, app, bolt) más mintázatokkal.
Ha egy optimalizáló jobban bírja a heterogenitást, az segíthet abban, hogy:
- gyorsabban tanuljon a modell több üzletágból,
- kevesebb legyen a „túlhangolt a nagy piacra” jelenség,
- stabilabb legyen a finomhangolás kampányszezonban (pl. karácsony utáni leárazások, év eleji készletkisöprés).
Én nem állítom, hogy holnaptól mindenki dobja ki az AdamW-t. Azt viszont igen, hogy az optimalizálás végre újra stratégiai téma lett, és nem csak „beállítás” a tréning scriptben.
Gyors Q&A: amit a döntéshozók tényleg megkérdeznek
„Ez azt jelenti, hogy pontosabb lesz a diagnosztikai AI?”
Közvetlenül nem. A PISA típusú fejlesztések elsődlegesen gyorsabb és stabilabb tanítást céloznak. De a gyakorlatban ez gyakran vezet jobb végeredményhez, mert több kísérlet fér bele, és kevésbé kell „óvatosra” venni a tréninget.
„Mikor éri meg új optimalizálót bevezetni?”
Akkor, ha a következők közül legalább kettő igaz:
- elosztott/multi-site adatod van (különösen egészségügyben),
- sok a tréning-instabilitás és a hyperparaméter-tuning,
- drága a compute és szoros a határidő (klinikai pilot, tender, audit).
„Milyen kockázatot hoz be?”
A fő kockázat a mérnöki oldal: implementáció, reprodukálhatóság, MLOps-integráció. Egészségügyben ehhez hozzáadódik az is, hogy a validációs folyamatok lassabbak. Emiatt én pilotot javasolnék: először egy jól körülhatárolt taskon, tiszta mérőszámokkal.
Következő lépés: hogyan lesz ebből kézzelfogható előny egészségügyben?
Az üzenet számomra egyértelmű: ha gyorsabb a tréning, gyorsabb a validáció; ha stabilabb a tréning, kevesebb a zsákutca. A PISA/SISA/NSISA irány azt mutatja, hogy a deep learning optimalizálásában még bőven van mozgástér – különösen ott, ahol heterogén adatokkal kell dolgozni, márpedig az egészségügyben ez a szabály, nem a kivétel.
Ha egészségügyi AI rendszereken dolgozol (képalkotás, diagnosztikai triázs, leletelemzés), érdemes a következő sprintben feltenni egy nagyon földhözragadt kérdést: mennyi idő és GPU-óra megy el pusztán azért, mert az optimalizáló nem bírja a valós adatvilágot?
A sorozatunk kiskereskedelmi és e-kereskedelmi példái mellett ez a téma emlékeztet arra, hogy az AI értéke gyakran a „háttérben” dől el: a tréning stabilitásán, a skálázáson és azon, hogy mennyire tudunk gyorsan, kontrolláltan tanulni heterogén adatokból.
Ha szeretnéd, megírom egy 2 hetes pilot tervét (KPI-okkal, kockázatlistával és MLOps checklittel), kifejezetten egészségügyi képalkotó modell fine-tuningjára.