A vizuális promptok csalókák: így dőlhetnek be a VLM-ek

Mesterséges intelligencia a logisztikában és ellátási láncban••By 3L3C

A vizuális promptok apró részletei (szín, méret, tömörítés) felboríthatják a VLM ranglistákat. Mutatom, mit jelent ez egészségügyben és logisztikában.

VLMbenchmarkingrobosztusságorvosi képalkotáslogisztikai automatizálásszámítógépes látás
Share:

Featured image for A vizuális promptok csalókák: így dőlhetnek be a VLM-ek

A vizuális promptok csalókák: így dőlhetnek be a VLM-ek

A ranglisták szeretnek magabiztosnak látszani. Egy szám, egy helyezés, egy „jobb, mint a többi” üzenet — és már indul is a beszerzés, a pilot, a vezetői prezentáció. Csakhogy a 2025.12.19-én benyújtott friss kutatás szerint a vizuálisan promptolt benchmarkok (ahol a kérdés egy képen jelölt pontra/területre hivatkozik) meglepően könnyen „megbillenhetnek”. Olyannyira, hogy egy piros jelölő kékre cserélése vagy a jelölő méretének kicsi módosítása akár teljesen átrendezheti a modellek sorrendjét.

Ez a téma elsőre távolinak tűnhet a „Mesterséges intelligencia a logisztikában és ellátási láncban” sorozatban. Pedig nagyon is ide tartozik: ha egy VLM (vision-language model) ennyire érzékeny a jelölés apró részleteire, akkor ugyanaz a törékenység előjöhet raktári vizuális ellenőrzésnél, csomagolási hibák felismerésénél, vagy akár árubeérkezés fotóalapú dokumentálásánál. És a kampányunk fókuszában lévő egészségügyben ez még keményebb: ott a „csak egy jelölő” jellegű eltérések diagnosztikai kockázattá válnak.

Egymondatos lényeg: ha a VLM-et vizuális jelölőkkel teszteljük, a benchmark „körítése” (szín, méret, tömörítés, mintaszám) néha jobban befolyásolja az eredményt, mint maga a vizuális megértés.

Miért törékenyek a vizuálisan promptolt benchmarkok?

A vizuális promptolás célja tiszta: azt szeretnénk mérni, hogy a modell tényleg a képet elemzi-e, és nem csak a szöveges mintákból „okoskodik”. A BLINK-hez hasonló feladatokban ezért a kérdés tipikusan így működik: „Mi látható ennél a pontnál?” — és a pontot a képen vizuális marker jelöli.

A kutatás viszont azt találta, hogy a marker maga (színe, formája, mérete) nem semleges. Sok modellnél a marker nem csak „mutató”, hanem zavaró vizuális objektum is lehet, ami:

  • eltakar rĂ©szleteket (okklĂşziĂł)
  • megváltoztatja a kontrasztot Ă©s a figyelmet (saliency)
  • eltolja a belsĹ‘ figyelmi tĂ©rkĂ©peket (attention)
  • visszahat a kĂ©pleĂ­rási mintákra (pl. „piros pötty”, „jelölő”, „cĂ©lpont”)

A reality check: a VLM-ek nagy része nem „szem”, hanem statisztikai gépezet. Ha a tréningadatokban egy bizonyos jelölőtípus gyakran együtt jár bizonyos válaszformákkal, akkor a modell — különösen határesetekben — ráülhet erre a mintára.

A ranglista miért tud felborulni egy színcserétől?

A paper egyik legkellemetlenebb üzenete: a leaderboardok nem csak zajosak, hanem manipulálhatók is. Ha egy marker kicsit nagyobb lesz, vagy más színű, akkor:

  • egy modell jobban „tolerálja” a takarást,
  • egy másik modell tĂşlzottan a markerre fĂłkuszál,
  • egy harmadik modellnĂ©l a pre-process pipeline máskĂ©pp kezeli a szĂ­neket/tömörĂ­tĂ©st.

Ennek eredménye az, hogy ugyanaz a feladat más beállítással más nyertest hoz.

Mit mutat a friss kutatás (és miért fontos ez a gyakorlatban)?

A tanulmány kilenc nyílt és zárt forrású VLM-et vizsgál két vizuálisan promptolt feladaton, és azt demonstrálja, hogy a következő „apró” döntések nagyot ütnek:

  • marker szĂ­ne (pĂ©lda: piros ↔ kĂ©k)
  • marker mĂ©rete (kicsit nagyobb jelölĹ‘ = más rangsor)
  • adathalmaz mĂ©rete (kisebb mintán instabilabb a sorrend)
  • alacsony szintű inferencia beállĂ­tások, pĂ©ldául JPEG tömörĂ­tĂ©s API-hĂ­vásokban

A legérdekesebb állításuk az, hogy ezek a hatások jóval nagyobbak, mint a hagyományos, „szemantikus” VLM értékeléseknél (pl. képleírás, VQA általános kérdések).

A kellemetlen következmény: „gyengébb” modell előzhet „erősebbet”

A kutatók konkrét példát is adnak: a marker méretének kis növelése olyan helyzetet teremthet, ahol egy nyílt forrású modell (példaként említik az InternVL3-8B-t) összemérhető helyre kerül vagy akár jobbnak látszik, mint egy nagy, zárt modell (példaként szerepel a Gemini 2.5 Pro).

Nem az a tanulság, hogy „a kisebb modell jobb”. Hanem az, hogy a mérőrendszer érzékenysége miatt a ranglista könnyen félrevezető.

Egészségügyi tanulság: a robust AI nem PR, hanem betegbiztonság

Az egészségügyben a vizuális modellek tipikus terepe:

  • radiolĂłgia (CT, MR, röntgen)
  • patolĂłgia (WSI: digitális metszetek)
  • bĹ‘rgyĂłgyászati kĂ©pek
  • endoszkĂłpia, ultrahang

Itt a vizuális promptolás analógiája nagyon is valós: orvosok és asszisztensek gyakran dolgoznak jelölésekkel (ROI, körberajzolás, nyilak, mérővonalak). A mindennapi rendszerekben pedig megjelenik:

  • kĂĽlönbözĹ‘ PACS megjelenĂ­tĹ‘ stĂ­lus,
  • eltĂ©rĹ‘ export beállĂ­tások,
  • kĂ©pernyĹ‘fotĂłk tömörĂ­tĂ©ssel,
  • annotáciĂłk szĂ­ne/mĂ©rete intĂ©zmĂ©nyenkĂ©nt.

Ha a modell teljesítménye ennyire függ a „körítéstől”, akkor a kockázat kézzelfogható:

  • hamis negatĂ­v: a marker eltakar egy finom elváltozást
  • hamis pozitĂ­v: a marker vizuális mintája „elindĂ­t” egy rossz asszociáciĂłt
  • intĂ©zmĂ©nyenkĂ©nt eltĂ©rĹ‘ teljesĂ­tmĂ©ny: más export Ă©s tömörĂ­tĂ©s → más eredmĂ©ny

Én ebben nem vagyok kompromisszumkész: egészségügyi AI-t nem szabad úgy bevezetni, hogy a validáció csak egyetlen „szép” benchmark-setupon futott.

Logisztikai párhuzam: ugyanaz a törékenység a raktárban is előjön

A sorozatunk logisztikai fókuszában a VLM-ek egyre gyakrabban kerülnek elő olyan feladatokra, mint:

  • beĂ©rkezĹ‘ áru fotĂłalapĂş ellenĹ‘rzĂ©se (sĂ©rĂĽlĂ©s, hiány, csomagolási anomália)
  • raklapok Ă©s cĂ­mkĂ©k vizuális azonosĂ­tása
  • komissiĂłzás támogatása ("ezt a polcot nĂ©zd")
  • minĹ‘sĂ©gellenĹ‘rzĂ©s gyártásközi pontokon

A vizuális prompt itt lehet:

  • kĂ©pernyĹ‘n megjelenĹ‘ cĂ©lkereszt/marker,
  • AR-szemĂĽveg kiemelĂ©se,
  • operátori rajzolt jelölĂ©s,
  • automatikus bounding box.

A tanulság: ha a rendszer teljesítménye függ a marker árnyalatától vagy a képek tömörítésétől, akkor egy látszólag ártatlan változás — új kamera, más mobilapp, új export beállítás — megdöntheti a stabilitást. A supply chain-ben ez selejtet, reklamációt, SLA-csúszást jelent. Az egészségügyben ennél is többet.

Hogyan mérjünk és vezessünk be vizuális AI-t stabilan? (Gyakorlati ellenőrzőlista)

A válasz nem az, hogy „benchmarkot kidobni”. A válasz az, hogy robosztusságra tervezünk — már a mérésnél.

1) Variánsokkal tesztelj, ne egyetlen setuppal

Ha vizuális promptot használsz (pont, nyíl, doboz, highlight), akkor a validációban legyen:

  • legalább 8–16 marker variáns (szĂ­n, forma, vastagság, mĂ©ret)
  • több kontrasztos háttĂ©rhelyzet (világos/sötĂ©t rĂ©giĂłk)
  • enyhe eltolások (marker 2–5 pixelrel arrĂ©bb)

A paper pont ebbe az irányba lép a VPBench-csel: több variáns, nagyobb adathalmaz, többféle marker.

2) Rögzítsd az inferencia pipeline-t (és auditáld)

A JPEG tömörítés említése azért ijesztő, mert hétköznapi: sok API és kliens automatikusan tömörít. A stabil bevezetéshez rögzítsd és dokumentáld:

  • bemeneti felbontás Ă©s átmĂ©retezĂ©s
  • tömörĂ­tĂ©s tĂ­pusa Ă©s minĹ‘sĂ©ge
  • szĂ­nterek kezelĂ©se (sRGB, gamma)
  • pre-process lĂ©pĂ©sek (crop, pad)

Snippet-kompatibilis állítás: „A VLM teljesítményét nem csak a modell, hanem a teljes képfeldolgozási lánc határozza meg.”

3) Ne csak átlagpontszámot nézz: nézd a szórást is

A robust AI egyik gyors lakmusztesztje: mennyit ingadozik a modell teljesítménye variánsok között. A riportban legyen:

  • átlag
  • medián
  • szĂłrás / interkvartilis tartomány
  • legrosszabb 5% (worst-case)

Egészségügyben és kritikus logisztikában a worst-case sokszor fontosabb, mint a csúcs.

4) Validáció „valós” adaton: intézményenként / telephelyenként

Ha több telephely, több kamera, több szoftver, több annotációs stílus létezik, akkor a helyes gyakorlat:

  • telephelyenkĂ©nt kĂĽlön validáciĂł,
  • domain shift tesztek (Ăşj eszköz, Ăşj tömörĂ­tĂ©s, más fĂ©nyviszony),
  • drift monitoring bevezetĂ©s után.

5) Ember a hurokban, de okosan

Az „ember a hurokban” nem dísz. Legyen világos:

  • mikor ad a rendszer javaslatot (assist),
  • mikor ad riasztást (alert),
  • mikor blokkol (hard stop),
  • Ă©s hol kötelezĹ‘ a felĂĽlvizsgálat.

Különösen egészségügyben: a rendszernek nem csak pontossága kell, hanem megmagyarázható hibamódjai is.

Gyakori kérdések, amiket érdemes feltenni beszerzés vagy pilot előtt

„Ha a modell jó a leaderboardon, az elég?”

Nem. A leaderboard egy pillanatkép egy adott beállítással. A kérdés az, hogy a te környezetedben (kamerák, export, jelölések) mennyire stabil.

„Mitől lesz egy benchmark félrevezető?”

Attól, hogy a mérés közben a rendszer olyan részletekre tanul rá (marker, tömörítés, pre-process), amelyek nem a feladat lényegét mérik, mégis meghatározzák a pontszámot.

„Mit kérjek a szállítótól?”

Minimumot:

  • robosztussági tesztjelentĂ©s marker- Ă©s tömörĂ­tĂ©s-variánsokra
  • pipeline specifikáciĂł (input szabvány)
  • telephely-specifikus ĂşjratesztelĂ©si terv
  • monitoring Ă©s visszamĂ©rĂ©s (drift)

Merre tovább: megbízhatóság mint versenyelőny (ellátási láncban és egészségügyben)

A vizuálisan promptolt benchmarkok törékenysége jókor jön, még ha kényelmetlen is. 2025 végén a legtöbb szervezet már nem azon vitatkozik, hogy „kell-e AI”, hanem azon, hogy melyik AI-t lehet biztonságosan üzemeltetni.

A logisztikában ez működési stabilitás és költségkontroll. Az egészségügyben bizalom és betegbiztonság. Ugyanaz a tanulság mindkét helyen: ne egyetlen beállításra optimalizáljunk, hanem variációkra és worst-case helyzetekre.

Ha most tervezel vizuális AI pilotot (raktári ellenőrzés, minőségbiztosítás, vagy akár orvosi képalkotás támogatása), én a következő lépéssel kezdeném: állíts össze egy rövid „robosztussági tesztcsomagot” marker- és tömörítés-variánsokkal, és nézd meg, hol reped meg a modell.

A kérdés nem az, hogy a VLM tud-e „szép válaszokat” adni. Hanem az, hogy ugyanazt a jó választ adja-e akkor is, amikor a valóság kicsit rondább, zajosabb, tömörítettebb — és tele van jelölésekkel.