Félig felügyelt preferencia-optimalizálás: jobb AI kevesebb visszajelzéssel. Példák egészségügyre és agrárra, gyakorlati bevezetéssel.

Kevesebb visszajelzés, okosabb AI az agrárban és klinikán
A legtöbb AI-projekt ott csĂşszik el, ahol a legdrágább: a cĂmkĂ©zett visszajelzĂ©snĂ©l. Akár növĂ©nybetegsĂ©get akarsz felismerni drĂłnkĂ©peken, akár triázst támogatni egy telemedicinás rendszerben, elĹ‘bb-utĂłbb belefutsz ugyanabba a falba: nincs elĂ©g „jĂłváhagyott” adat, Ă©s a szakĂ©rtĹ‘i annotáciĂł ĂłradĂja nem baráti.
Pont ezĂ©rt Ă©rdekes a 2025.12.19-Ă©n frissĂtett kutatás a Semi-Supervised Preference Optimization with Limited Feedback tĂ©mában. A szerzĹ‘k azt mutatják meg, hogyan lehet nagyon kevĂ©s páros preferencia-visszajelzĂ©sbĹ‘l (mi a jobb válasz, mi a rosszabb) Ă©s sok jelöletlen mintábĂłl Ăşgy tanĂtani modellt, hogy közben a minĹ‘sĂ©g ne essen össze – sĹ‘t: a kĂsĂ©rleteikben az jön ki, hogy 1% visszajelzĂ©ssel is kĂ©pesek felĂĽlmĂşlni olyan baseline-okat, amelyek 10%-ot használnak.
És itt jön a csavar: bár a cikk nyelvi modellekrĹ‘l beszĂ©l, a gondolatmenet nagyon szĂ©pen átĂĽltethetĹ‘ a mestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben terĂĽleteire – Ă©s ugyanĂgy a precĂziĂłs mezĹ‘gazdaság tipikus „kevĂ©s a szakĂ©rtĹ‘i cĂmke” problĂ©máira is. Szerintem 2026 egyik kulcskĂ©pessĂ©ge az lesz, hogy a szervezetek megtanulnak okosan spĂłrolni a visszajelzĂ©ssel, nem pedig sietve „mĂ©g több cĂmkĂ©t” vásárolni.
Mi a preferencia-optimalizálás, Ă©s miĂ©rt pont ez számĂt?
A preferencia-optimalizálás lényege: nem azt kérjük az emberektől, hogy „mi a helyes válasz?”, hanem azt, hogy két jelölt közül melyik a jobb. Ez gyakorlati szempontból két okból aranyat ér:
- Gyorsabb döntés: egy orvosnak/agrármérnöknek sokszor könnyebb rábökni, hogy A vagy B a jobb.
- Közvetlenebb minőségjel: a „jobbat” választás közelebb áll a valós használathoz (pl. betegkommunikáció, ajánlás, döntéstámogatás).
A gond az, hogy a modern mĂłdszerek mĂ©g mindig nagy mennyisĂ©gű, párosĂtott preferencia-adatra támaszkodnak. Ez a valĂłságban Ăgy nĂ©z ki:
- Egészségügy: szakorvosi idő, felelősség, auditálás → drága és lassú.
- Agrár: kevĂ©s szakĂ©rtĹ‘, szezonális csĂşcsidĹ‘, heterogĂ©n környezet (fajta, talaj, mikroklĂma) → nehĂ©z skálázni.
A kutatás központi kérdése egyszerűen fogalmazva:
Hogyan lehet a „kevés páros preferencia” mellé odatenni a „sok jelöletlen mintát”, és ebből valódi minőségi ugrást elérni?
SSPO: hogyan tanul az AI többet kevesebb visszajelzéssel?
A cikk javaslata a fĂ©lig felĂĽgyelt preferencia-optimalizálás (SSPO). A kulcsgondolat: legyen egy mĂłdunk arra, hogy a jelöletlen mintákat pszeudo-cĂmkĂ©zzĂĽk (kvázi „becsĂĽlt nyertes/vesztes” jelölĂ©s), mĂ©gpedig nem vaktában, hanem elvi alapon.
A „jutalomküszöb” ötlete közérthetően
A szerzĹ‘k elmĂ©leti hozzájárulása az, hogy lĂ©tezik egy optimális jutalomkĂĽszöb (reward threshold), ami nagy valĂłszĂnűsĂ©ggel szĂ©t tudja választani a „jobb” Ă©s „rosszabb” válaszokat.
FordĂtsuk le ezt hĂ©tköznapira:
- Van egy modell (vagy részmodell), ami minden válaszra ad egy pontszámot (jutalom).
- Ha a pontszám küszöb felett van, a válasz nagy eséllyel „nyertes”.
- Ha küszöb alatt, akkor „vesztes”.
Ezzel a trĂĽkkel a sok jelöletlen pĂ©ldát nem hagyjuk parlagon: pszeudo-nyertes/vesztes cĂmkĂ©ket adunk, Ă©s ezekkel tovább tanĂtunk.
MiĂ©rt jobb ez, mint a „csak tanĂtsunk tovább” hozzáállás?
Mert a pszeudo-cĂmkĂ©zĂ©s itt nem puszta tippelĂ©s. A kĂĽszöbölĂ©s logikája egy rendezett, kontrollálhatĂł eljárást ad:
- csökkenti a vĂ©letlen fĂ©lrecĂmkĂ©zĂ©s arányát,
- stabilizálja a tanulást,
- és a jelöletlen adatban rejlő latens preferenciákat tényleg ki tudja nyerni.
A papĂr egyik könnyen idĂ©zhetĹ‘ eredmĂ©nye: Mistral-7B-Instruct modellel, az UltraFeedback adatkĂ©szleten az SSPO 1% cĂmkĂ©zett preferenciával is konzisztensen erĹ‘sebb volt, mint több baseline 10% cĂmkĂ©zett adattal. Ez a 10Ă— cĂmkehatĂ©konyság az, ami miatt ezt Ă©rdemes komolyan venni.
Egészségügyi AI: pont itt fáj a „kevés visszajelzés” probléma
Az egészségügyben a preferencia nem „szép extra”, hanem sokszor betegbiztonsági tényező. Példák, ahol a korlátozott visszajelzés mindennapos:
1) Telemedicina és betegkommunikáció
Egy tünetellenőrző vagy telemedicinás chatbot válaszainál ritkán lesz minden üzenetre szakorvosi jóváhagyás. Viszont gyakran tudunk páros preferenciát kérni:
- „A válasz empatikusabb?”
- „A válasz egyértelműbb cselekvési tervet ad?”
- „A válasz biztonságosabb (nem bátorĂt veszĂ©lyes önkezelĂ©st)?”
SSPO-s szemlĂ©lettel a kevĂ©s „A vs B” visszajelzĂ©s mellĂ© be tudjuk hĂşzni a rengeteg jelöletlen beszĂ©lgetĂ©st (anonimizálva, megfelelĹ‘sĂ©ggel), Ă©s a modell „rááll” a kĂvánt stĂlusra Ă©s biztonsági mintákra.
2) Klinikai döntéstámogatás (triázs, ajánlások)
Triázsnál a preferencia sokszor nem az, hogy „helyes-e a diagnózis”, hanem hogy jobb-e a következő lépés javaslata. Például:
- megfelelő sürgősségi szint,
- figyelmeztető jelek felsorolása,
- konzultáció javaslata a megfelelő szakmához.
Korlátozott visszajelzĂ©s mellett SSPO-tĂpusĂş megközelĂtĂ©s segĂthet abban, hogy a rendszer gyorsabban közelĂtsen az intĂ©zmĂ©nyi protokollhoz, miközben kevĂ©s szakĂ©rtĹ‘i munkaĂłrát Ă©get.
3) Diagnosztikai AI és minőségellenőrzés
KĂ©palkotásnál (radiolĂłgia, patolĂłgia) gyakran van sok adat, de kevĂ©s egysĂ©ges minĹ‘sĂ©gű cĂmke. Preferenciát viszont nĂ©ha könnyebb kĂ©rni: „melyik jelölĂ©s követi jobban a kontĂşrt?”, „melyik magyarázat klinikailag használhatĂłbb?”.
Nem azt állĂtom, hogy SSPO „kiváltja” a validált ground truth-ot. Azt igen, hogy okosan kitölti a rĂ©st a kevĂ©s validált cĂmke Ă©s a sok nyers adat között.
Agrár AI: ugyanaz a probléma, csak más a terep
Ebben a blog-sorozatban (mesterséges intelligencia a mezőgazdaságban és agrártechnológiában) rendszeresen előjön egy kemény tapasztalat: a modell nem a laborban bukik el, hanem a táblán.
Az agrárban a „preferencia” sokszor ezt jelenti:
- melyik permetezési javaslat csökkenti jobban a kockázatot,
- melyik öntözési terv ad stabilabb hozamot,
- melyik betegsĂ©g-azonosĂtás magyarázata Ă©rthetĹ‘ a gazdának.
Konkrét, praktikus példa: növénybetegség felismerés + ajánlás
Képzeld el, hogy van:
- 2 000 szakértői páros preferenciád (A/B: „melyik diagnózis+teendő jobb?”),
- és 200 000 jelöletlen fotód + a rendszer által generált válaszok.
A klasszikus Ăşt: mĂ©g több cĂmkĂ©t vásárolsz.
Az SSPO-s Ăşt: a kevĂ©s páros preferenciábĂłl felĂ©pĂtesz egy jutalommodellt, kĂĽszöbölsz, pszeudo-cĂmkĂ©zel, Ă©s a 200 000 jelöletlen pĂ©ldábĂłl is tanulsz. A szezon közepĂ©n ez nem „nice to have”, hanem ĂĽzleti tĂşlĂ©lĂ©si kĂ©pessĂ©g.
Hogyan Ă©pĂtsd be SSPO-s logikával az „emberi visszajelzĂ©st” a folyamatba?
A legjobb eredmĂ©nyt akkor láttam projektekben, amikor a visszajelzĂ©s nem kampányszerű, hanem rendszerszintű. Egy működĹ‘, ipari jellegű keret Ăgy nĂ©zhet ki:
1) Határozd meg a preferencia-dimenziókat
Ne csak azt kérdezd, hogy „melyik jobb?”, hanem legyen 3–5 fix szempont. Egészségügyi és agrár példák:
- biztonság (kockázatos tanács kiszűrése),
- érthetőség (nem szakzsargon),
- protokollhűség (irányelvek),
- hasznosság (konkrét következő lépések),
- bizonytalanság kezelése (mikor kell szakember).
2) Kicsi, de erĹ‘s „arany” kĂ©szletet Ă©pĂts
A cikk ĂĽzenete nem az, hogy „nem kell cĂmke”, hanem az, hogy okosan válaszd meg, mire költesz cĂmkĂ©zĂ©si bĂĽdzsĂ©t.
- legyen auditált,
- legyen reprezentatĂv,
- legyen benne nehéz eset (ritka tünet, ritka kórkép / ritka kártevő).
3) Pszeudo-cĂmkĂ©zĂ©s csak kontrollal
A kĂĽszöbös megközelĂtĂ©snĂ©l Ă©rdemes ĂĽzemi szabályokat hozni:
- csak a magas biztonságĂş pszeudo-nyerteseket használd tanĂtásra,
- a „szürke zóna” menjen emberhez,
- idĹ‘nkĂ©nt mintavĂ©telezz Ă©s ellenĹ‘rizd a pszeudo-cĂmkĂ©k minĹ‘sĂ©gĂ©t.
4) Mérj úgy, ahogy a valóság fáj
Egészségügyben ez lehet:
- téves sürgősségi javaslat aránya,
- nem megfelelő önellátási tanács aránya,
- orvos által elfogadott összefoglalók aránya.
Agrárban:
- tĂ©ves kĂłrokozĂł-azonosĂtás aránya terepi mintán,
- „használható ajánlás” aránya (gazdák visszajelzése alapján),
- inputanyag-megtakarĂtás (vĂz, műtrágya) kontrollált kĂsĂ©rletben.
Gyakori kérdések, amik mindig feljönnek (és jogosan)
„Ez kiváltja a szakĂ©rtĹ‘i cĂmkĂ©zĂ©st?”
Nem. Csökkenti a szĂĽksĂ©ges mennyisĂ©get, Ă©s gyorsĂtja a fejlĹ‘dĂ©st. Kritikus rendszereknĂ©l (klinika, gyĂłgyszerelĂ©s) a vĂ©gsĹ‘ validáciĂłt nem Ăşszod meg.
„Mi van, ha a pszeudo-cĂmkĂ©k hibásak?”
A kockázat valĂłs. EzĂ©rt kell a kĂĽszöbölĂ©s, a szĂĽrke zĂłna kezelĂ©se Ă©s a rendszeres audit. A rossz pszeudo-cĂmkĂ©zĂ©s rossz irányba is vihet.
„Agrárban hol a legjobb első use case?”
Szerintem ott, ahol az output nem csak „osztály”, hanem javaslat + magyarázat:
- növényvédelmi döntéstámogatás,
- öntözési terv generálása helyi szenzoradatból,
- terméshozam-előrejelzés mellé magyarázó tényezők.
Mit érdemes most megtenni, ha leadet is szeretnél belőle?
Ha 2026-ra komolyan tervezel AI-t bevinni agrár- vagy egészségügyi folyamatokba, én három lépést tennék meg még a Q1-ben:
- Visszajelzés-audit: jelenleg hol keletkezik preferencia-jel? (support jegyek, orvosi megjegyzések, gazdai értékelések)
- Kis pilot SSPO-s szemlélettel: 1–2 ezer páros preferencia + nagy jelöletlen készlet, mérhető KPI-okkal.
- Biztonsági keretrendszer: küszöbök, szürke zóna, ember a hurokban, naplózás.
A tapasztalatom az, hogy a „még több adatot gyűjtünk” reflex helyett a „okosabban használjuk a meglévőt” hozza a gyors nyereséget – különösen ott, ahol a szakértői visszajelzés szűk keresztmetszet.
A kérdés, ami 2026-ban mindkét területen eldől: a szervezeted tud-e tanulni kevés, de jó visszajelzésből, vagy minden új modellverzióhoz újabb annotációs kampány kell?