Az AI kĂ©zĂrásfelismerĂ©s 4,9% CER-rel már kĂ©ziratokon is működik. Mutatom, hogyan vihetĹ‘ át kĂłrlapokra Ă©s EdTech-tananyagokra.

AI kĂ©zĂrásfelismerĂ©s: kĂ©zirattĂłl a kĂłrlapig
A 4,9%-os karakterhiba-arány (CER) nem hangzik látványosnak — amĂg nem gondolsz bele, mit jelent a gyakorlatban: egy kĂ©zzel Ărt, foltos, ferde sorokkal teli dokumentumbĂłl a modell átlagosan kb. 95 karaktert eltalál 100-bĂłl. Egy friss arXiv-tanulmány pontosan ezt Ă©rte el Ăł-nepáli kĂ©ziratokon egy teljes, vĂ©gponttĂłl vĂ©gpontig felĂ©pĂtett HTR (Handwritten Text Recognition) folyamattal.
Engem azĂ©rt fogott meg ez a sztori, mert ugyanaz a problĂ©ma jön szembe itthon is, csak más dĂszletben. A mĂşzeumi raktárban pergamenlap, a kĂłrházi archĂvumban papĂrkĂłrlap. A lĂ©nyeg ugyanaz: Ă©rtĂ©kes informáciĂł van a dokumentumokban, csak nem kereshetĹ‘, nem elemezhetĹ‘, nem tanĂthatĂł belĹ‘le.
És itt csatlakozik ez a tĂ©ma a „MestersĂ©ges intelligencia az oktatásban Ă©s EdTech terĂĽleten” sorozatunkhoz is: ha az AI megtanul „olvasni” nehezen Ă©rtelmezhetĹ‘ kĂ©zĂrást, akkor nemcsak digitalizál, hanem tanulási tartalmakat, gyakorlĂładatokat, visszajelzĂ©si rendszereket is kĂ©pes Ă©pĂteni belĹ‘le. Ugyanez a logika működik a magyar egĂ©szsĂ©gĂĽgyben is: a kĂ©zĂrásfelismerĂ©s Ă©s a dokumentumfeldolgozás az egyik legrövidebb Ăşt a jobb adatminĹ‘sĂ©ghez.
Mit tanĂt nekĂĽnk az Ăł-nepáli HTR-pipeline?
A legfontosabb tanulság: a jĂł kĂ©zĂrásfelismerĂ©s nem egyetlen modell „varázslata”, hanem egy fegyelmezett pipeline. A tanulmány azĂ©rt Ă©rtĂ©kes, mert nem csak egy architektĂşrát mutat, hanem vĂ©gigmegy azon, hogyan lesz a kĂ©ziratfotĂłbĂłl használhatĂł szöveg.
A szerzĹ‘k sorszintű átĂrást használnak (line-level transcription), ami törtĂ©neti anyagoknál praktikus: nem kell minden karaktert kĂĽlön dobozolni, elĂ©g a sorokat jĂłl kivágni Ă©s párosĂtani a transzkripciĂłval.
A kulcsszám: 4,9% CER
A modell legjobb eredménye 4,9% karakterhiba-arány. Ez a szám két okból különösen beszédes:
- Alacsony erĹ‘forrásĂş nyelv Ă©s ĂráskĂ©p: kevĂ©s adat, sok variancia, kevĂ©s „szabványos” betűforma.
- Történeti dokumentumok: foltok, elmosódás, torzulás, tintahalványodás, egyenetlen sorvezetés.
Ha ezen a terepen ilyen pontosság elérhető, akkor a modern, strukturáltabb környezet (például kórházi formanyomtatványok kézzel kitöltött részei, ambuláns lapok) még hálásabb célpont lehet — feltéve, hogy a pipeline rendben van.
Miért pipeline és nem csak modell?
Mert a hibák fele nem „AI-hiba”, hanem adat- és folyamat-hiba:
- rossz szkennelés, ferde lap
- pontatlan sor-kivágás
- inkonzisztens transzkripciós szabályok
- rosszul megválasztott dekódolási stratégia
- hiányzĂł utĂłfeldolgozás (normalizálás, rövidĂtĂ©sek kezelĂ©se)
A tanulmány külön értéke, hogy dekódolási stratégiákat is vizsgál, és token-szintű összetévesztéseket elemez. Magyarul: nem csak azt mondja, „ennyi lett a pontosság”, hanem megmutatja, hol és miért csúszik el a rendszer.
Mi a párhuzam az egĂ©szsĂ©gĂĽggyel? PapĂrbĂłl adat, adatbĂłl döntĂ©s
A legközvetlenebb hĂd: az egĂ©szsĂ©gĂĽgyben is hatalmas mennyisĂ©gű informáciĂł „ragadt” papĂron vagy fĂ©lstrukturált PDF-ekben. A kĂłrtörtĂ©net, zárĂłjelentĂ©s, ambuláns lap, konzĂlium, ápolási lap gyakran:
- nem kereshető
- nem összevethető intézmények között
- nem alkalmas minőségi indikátorok automatizált mérésére
- nehezen használható oktatási célra (esetmegbeszélés, szimuláció, vizsgafeladat)
Az AI dokumentumfeldolgozás itt nem PR-ĂgĂ©ret, hanem nagyon konkrĂ©t nyeresĂ©g: idĹ‘, adatminĹ‘sĂ©g, betegbiztonság.
KĂ©zĂrásfelismerĂ©s vs. orvosi kĂ©palkotás: meglepĹ‘en hasonlĂł
Sokan azt gondolják, hogy a „komoly” AI az MRI/CT elemzĂ©s. Pedig a kĂ©zĂrásfelismerĂ©s Ă©s dokumentum-Ă©rtelmezĂ©s ugyanazt a kĂ©pessĂ©get igĂ©nyli: vizuális mintázatokbĂłl strukturált informáciĂł.
A közös pontok:
- zajos bemenet (szken, fotó, árnyék, torzulás)
- finom vizuális különbségek (egy jel vagy vonás mindent megváltoztat)
- nagy tét (félreolvasott gyógyszeradag, félreértett diagnózis)
- szĂĽksĂ©g van hibaanalĂzisre Ă©s visszacsatolásra
Én azt látom, hogy a hazai szervezetek gyakran túl nagyot akarnak ugrani (rögtön „teljes EHR-automatizálás”), miközben az igazi nyereség sokszor a kisebb, jól körülhatárolt lépéseknél kezdődik: kórlapok kereshetővé tétele, kulcsmezők kinyerése, hibaarány mérhető csökkentése.
Hogyan lesz ebből EdTech-érték? Tananyag a valóságból
Az EdTech-szál itt nem erĹ‘ltetett: ha egyszer a kĂ©zĂrásos dokumentumokbĂłl gĂ©pileg olvashatĂł szöveg lesz, hirtelen megnyĂlik egy Ăşj világ az oktatásban.
1) Automatikus gyakorlóanyag és „mini-esetek”
Képzeld el, hogy egy régi kézirat (vagy egy anonimizált betegút dokumentumcsomagja) alapján a rendszer képes:
- tĂ©mák szerint csoportosĂtani a szövegrĂ©szleteket
- rövid kivonatokat kĂ©szĂteni
- feladatokat generálni (fogalompárosĂtás, hiányos szöveg kitöltĂ©se)
Ez a „digitális tananyagfejlesztés” egyik legnehezebb része: a jó alapanyag. A HTR ezt az alapanyagot teszi olcsón elérhetővé.
2) Egyéni tanulási utak: hol hibázik a tanuló?
A tanulmány token-szintű összetévesztéseket elemez. Ugyanez a gondolkodás az oktatásban aranyat ér:
- mely karaktereket, rövidĂtĂ©seket, formákat keverik a tanulĂłk?
- mely kifejezések okoznak félreértést?
- mely dokumentumtĂpusok „olvashatĂłk” könnyebben?
A „tanulĂłi teljesĂtmĂ©ny elemzĂ©se” itt nem csak teszteredmĂ©ny, hanem finom hibaminta-feltárás.
3) Digitális kompetencia: olvasás, értelmezés, ellenőrzés
A kĂ©zĂrásfelismerĂ©s bevezetĂ©se nem azt jelenti, hogy „a gĂ©p majd megoldja”. A jĂł EdTech-megközelĂtĂ©s inkább az, hogy megtanĂtjuk:
- hogyan ellenĹ‘rizd a gĂ©pi átĂrást
- hogyan javĂtsd a hibákat következetesen
- hogyan dokumentáld a bizonytalanságot (pl. olvashatatlan rész jelölése)
Ez különösen releváns egészségügyi képzésekben, ahol a dokumentáció minősége önmagában kompetencia.
Gyakorlati recept: hogyan indĂts HTR/OCR projektet kĂłrházban vagy iskolában?
A legjobb elsĹ‘ lĂ©pĂ©s nem a „nagy rendszer” beszerzĂ©se, hanem egy kĂsĂ©rlet, ahol mĂ©rni tudsz. A nepáli pipeline logikája jĂłl átĂĽltethetĹ‘.
1) Válassz egy szűk, Ă©rtelmes dokumentumtĂpust
Jó pilot-célok:
- ambuláns lapok kĂ©zzel Ărt megjegyzĂ©smezĹ‘i
- konzĂliumi javaslatok
- gyógyszerelési megjegyzések (szigorú validációval)
- oktatási cĂ©lra: rĂ©gi iskolai anyakönyvek, kĂ©zzel Ărt dolgozatok (hozzájárulással)
2) RögzĂts transzkripciĂłs szabályokat
A pontosság nem csak modellen múlik, hanem azon, hogy a „helyes” szöveg mit jelent.
Döntsd el például:
- rövidĂtĂ©seket feloldod-e („bp” → „vĂ©rnyomás”) vagy megtartod
- helyesĂrási variánsokat egysĂ©gesĂtesz-e
- dátumformátumot normalizálsz-e (pl. 2025.12.22)
3) Mérj CER-t és „orvosi” hibát külön
A CER jó mérőszám, de nem minden hiba egyenlő. Az egészségügyben érdemes külön mérni:
- kritikus entitás-hibák (gyógyszer, dózis, allergia)
- negációs hibák („nem allergiás” → „allergiás”)
- szám-hibák (0,5 vs 5)
Ez az a pont, ahol a kulturális örökség digitalizálásából tanulhatunk: a szerzők nem elégedtek meg az átlagpontossággal, hanem hibamintákat kerestek.
4) Tegyél be „ember a hurokban” ellenőrzést
A gyors nyereség sokszor egy fél-automatizált rendszer:
- gĂ©p átĂrja
- ember ellenőrzi a kiemelt kockázatú részeket
- javĂtás visszakerĂĽl a tanĂtĂłkĂ©szletbe
Ezzel a modell is fejlődik, és az intézmény is kontrollban marad.
Snippet-mondat, amit Ă©rdemes megjegyezni: A kĂ©zĂrásfelismerĂ©s akkor hoz Ă©rtĂ©ket, ha a hibákat kategorizálod, Ă©s a javĂtási kör bezárul.
„De mi van az adatokkal?” – adatvédelem, bizalom, bevezethetőség
A tanulmányban az értékeléshez használt adathalmaz bizalmas, viszont a szerzők kódot, konfigurációkat és értékelő scripteket megosztanak. Ez jó irány: a reprodukálhatóság és a kontroll nem luxus, hanem bizalmi alap.
Egészségügyben (és oktatásban) három dolog nélkül szerintem nem érdemes belevágni:
- anonimizálási/pszeudonimizálási folyamat már a pilotnál
- naplĂłzott emberi javĂtás (ki mit mĂłdosĂtott, mikor, miĂ©rt)
- hibahatár Ă©s felelĹ‘ssĂ©gi körök elĹ‘re rögzĂtve
A cĂ©l nem az, hogy „mindent automatizáljunk”, hanem hogy a kritikus döntĂ©seket emberi ellenĹ‘rzĂ©ssel támogassuk, miközben az adminisztratĂv terhelĂ©st csökkentjĂĽk.
Merre tovább: a kĂ©zĂrásfelismerĂ©s mint közös infrastruktĂşra
Az Ăł-nepáli kĂ©ziratokhoz Ă©pĂtett HTR-pipeline ĂĽzenete egyszerű: ha egy nehĂ©z, alacsony erĹ‘forrásĂş kĂ©zĂrásos korpuszon 4,9% CER elĂ©rhetĹ‘, akkor a mĂłdszertan skálázhatĂł más terĂĽletekre is. Szerintem a következĹ‘ 12–18 hĂłnapban (2026 elejĂ©ig) egyre több szervezet fog rájönni, hogy a dokumentumfeldolgozás nem „mellĂ©kprojekt”, hanem adatstratĂ©gia.
Az EdTech oldalrĂłl nĂ©zve ez azt jelenti, hogy a tanulási utak szemĂ©lyre szabása Ă©s a digitális oktatási platformok tartalomellátása egyre inkább valĂłs, nagy tömegű szöveganyagra támaszkodhat. Az egĂ©szsĂ©gĂĽgy oldalrĂłl pedig azt, hogy a betegellátás minĹ‘sĂ©gĂ©nek mĂ©rĂ©sĂ©hez Ă©s javĂtásához vĂ©gre nem csak kĂ©zzel vezetett Excel-táblák lesznek.
Ha a szervezetednĂ©l most merĂĽl fel a kĂ©rdĂ©s, hogy „érdemes-e HTR/OCR projektbe kezdeni?”, Ă©n azt mondom: igen, de kicsiben, mĂ©rhetĹ‘en, hibamintákra Ă©pĂtve. A kĂ©zirattĂłl a kĂłrlapig vezetĹ‘ Ăşt meglepĹ‘en rövid, ha a pipeline jĂł.
A következĹ‘ lĂ©pĂ©shez pedig egy praktikus kĂ©rdĂ©st hagyok itt: a te intĂ©zmĂ©nyedben melyik az az egy dokumentumtĂpus, amit ha holnaptĂłl kereshetĹ‘vĂ© tennĂ©tek, azonnal Ă©rezhetĹ‘en csökkenne a munka Ă©s nĹ‘ne a biztonság?