Radyolojide LLM’ler en çok rapor standardizasyonu ve iş akışında değer üretiyor. Tanı tarafında ise doğrulama ve güvenlik şart.

Radyolojide Büyük Dil Modelleri: Nerede İşe Yarıyor?
Radyolojide büyük dil modelleri (LLM) konusu “her şeyi çözecek” diye konuşulurken, sahadaki tablo daha net: LLM’ler bazı işlerde çok iyi, bazı işlerde ise hâlâ güven vermiyor. 09.12.2025’te yayımlanan kapsamlı bir tarama çalışması, Ocak 2022–Aralık 2024 arasında 67 ampirik çalışmayı bir araya getiriyor ve LLM’lerin radyolojide hangi görevlerde parladığını, nerede tökezlediğini sayıların diliyle gösteriyor.
Bu, “Sağlık Sektöründe Yapay Zekâ ve Dijital Sağlık” serimizin tam kalbine oturuyor. Çünkü radyoloji sadece görüntü yorumlama değil; raporlama, triyaj, hasta iletişimi, protokol seçimi, hata yakalama, RIS/PACS süreçleri… Yani dijital sağlık dönüşümünün operasyonel omurgası. Benim net görüşüm şu: Önümüzdeki 12–24 ayda gerçek değer, tanı koydurmaktan çok, dil ve iş akışı tarafındaki verimlilik kazanımlarından gelecek.
Aşağıda, araştırmanın bulgularını Türkiye’deki hastaneler ve görüntüleme merkezleri açısından pratik bir çerçeveye oturtuyor; “Nerede başlamak mantıklı?”, “Hangi riskler gerçek?” ve “Pilot nasıl tasarlanır?” gibi soruları somutlaştırıyorum.
Kanıt ne söylüyor? 67 çalışmadan çıkan büyük resim
Yanıt: Literatür hızla büyüyor; ama olgunluk düzeyi görevden göreve çok farklı.
Tarama çalışması üç veritabanında (PubMed, Scopus, IEEE Xplore) yapılan taramayla 67 değerlendirme çalışmasını dahil ediyor. Bulguların birkaç kritik noktası:
- En sık incelenen model: GPT-4 (28/67, %42)
- Veri tipi: metin ağırlıklı (43/67, %64)
- Kullanım alanları üç ana temada toplanıyor:
- Karar desteği (39/67, %58)
- Rapor üretimi ve özetleme (16/67, %24)
- İş akışı optimizasyonu (12/67, %18)
- Çalışmaların çoğu: tek merkezli ve “proof-of-concept” (53/67, %79)
Bu son madde çok önemli. Birçok demo “çalışıyor” gibi görünür; fakat dış doğrulama, prospektif test ve klinik entegrasyon gelmeden gerçek hayatta sürprizler çıkar.
Radyolojide LLM’ler en çok nerede işe yarıyor?
Yanıt: LLM’ler bugün en güvenilir biçimde “metin ve süreç” işlerinde değer üretiyor; tanı koyma tarafı ise dalgalı.
Araştırma, LLM uygulamalarını üç ana kümeye ayırıyor. Bu kümeleri Türkiye’deki dijital sağlık gündemiyle birleştirince net bir yol haritası çıkıyor.
1) Karar desteği: Sınıflama ve bilgi çıkarımı güçlü, tanı akıl yürütme zayıf
Yanıt: Sınıflama/bilgi çıkarımı gibi yapılandırılmış görevlerde başarı yüksek; klinik vaka tanısı ve görüntüden tanı değişken.
Çalışmalarda görülen aralıklar:
- Sınıflama doğruluğu: %83–%97
- Klinik vakadan tanı doğruluğu: %16–%50
- Görüntüden tanı doğruluğu: %25–%84
Bu fark tesadüf değil. Metin tabanlı, kurallı ve tekrar eden işler (ör. rapordan bulgu çıkarımı, kodlama, kategorileme) LLM/Transformer ailesine daha uygun. Ama “zor vakada doğru tanıyı koy” dediğinizde problem büyüyor: veri yanlılığı, az klinik doğrulama, modelin “halüsinasyon” üretme riski ve nadir bulgularda performans düşüşü.
Türkiye’de pratik karşılığı:
- Doğru kullanım: rapor içinden yapılandırılmış alan çıkarma (laterality, bulgu var/yok, öneri var/yok), önceliklendirme için basit triyaj etiketleri
- Yanlış beklenti: tek başına “tanı koyan” asistan
2) Rapor üretimi ve özetleme: Dil kalitesi iyi, olgusal doğruluk hâlâ kırılgan
Yanıt: LLM’ler okunabilir, standart ve anlaşılır rapor metni üretmede iyi; fakat olgusal hata riski klinik güvenlik açısından sınırlayıcı.
Rapor üretiminde dikkat çekici iki gerçek var:
- Otomatik metrikler (BLEU/ROUGE gibi) klinik faydayı her zaman yansıtmıyor.
- Hekim değerlendirmelerinde “kabul edilebilirlik” yüksek olabilse de, tanısal doğruluk ve “nadir bulgular” hâlâ riskli.
Buna rağmen, doğru sınırlarla kullanıldığında güçlü bir alan var: şablonlama, standardizasyon ve özetleme.
- Serbest metni yapılandırılmış rapora dönüştürme
- “Impression/sonuç” bölümünü kısa ve tutarlı hale getirme
- Konsültasyon için özet çıkarma
Türkiye’de özellikle teleradyoloji yapan kurumlarda “gece yoğunluğu” problemi var. Benim gördüğüm en hızlı kazanım, LLM’i “raporu yaz” diye değil, raporu formatla ve sadeleştir diye konumlamak.
3) İş akışı optimizasyonu: Düşük risk, yüksek kazanç alanı
Yanıt: Protokol seçimi, hata yakalama, hasta diliyle açıklama gibi tanı dışı görevler, erken entegrasyon için en mantıklı yer.
Araştırma, iş akışı optimizasyonu tarafında şu görevleri öne çıkarıyor:
- Raporların hasta dostu dile çevrilmesi
- Raporlarda öneri/aksiyon içeren bölümlerin bulunması
- Laterality (sağ/sol) gibi kritik hata türlerinin yakalanması
- İstem formundan uygun modalite/protokol seçimi
- RIS arayüzlerinde daha doğal bir “soru-cevap” deneyimi
Bu işlerin ortak yanı şu: Hata olsa bile klinik kararın tek kaynağı olmuyorlar (ya da olmamalılar). Bu nedenle dijital sağlık projelerinde “güvenli başlangıç” noktası.
Neden tanı performansı bu kadar değişken?
Yanıt: Veri temsil gücü zayıf, klinik doğrulama az ve modeller çoğu zaman radyolojiye özel eğitilmemiş.
Çalışmaların %79’unun tek merkezli olması, genellenebilirliği doğrudan vuruyor. Ayrıca metin ağırlıklı veride bile dil/terminoloji farkları var; görüntü tarafında ise cihaz, protokol, popülasyon ve etiketleme kalitesi performansı dramatik etkiliyor.
Üç pratik sebep:
- Veri yanlılığı (bias): Model belirli popülasyonda “iyi”, başka popülasyonda şaşırıyor.
- Fine-tuning eksikliği: Genel amaçlı LLM’yi radyoloji jargonuna bırakınca, “akıcı ama hatalı” sonuç üretebiliyor.
- Klinik entegrasyon eksikliği: Prospektif, çok merkezli test yapılmadan güvenlik profili oluşmuyor.
Buradan çıkan ders: “Modeli seçtik, bitti” değil. Veri stratejisi + klinik doğrulama + süreç tasarımı birlikte yürümeli.
Türkiye’de hastane ve görüntüleme merkezleri için uygulanabilir yol haritası
Yanıt: En hızlı değer, rapor standardizasyonu ve iş akışı otomasyonunda; pilotlar küçük, ölçülebilir ve denetlenebilir olmalı.
Aşağıdaki çerçeve, dijital sağlık ekiplerinin “LLM pilotu”nu pazarlama sunumundan çıkarıp operasyonel projeye çevirmesine yardım eder.
1) Doğru problemi seçin: “Tanı” değil “süreç”
Başlangıç için en mantıklı 5 kullanım senaryosu:
- Rapor şablonlama ve standartlaştırma (kurum içi format birliği)
- Rapor özetleme (konsültasyon, MDT toplantıları)
- Hasta dostu rapor açıklaması (onaylı içerik şablonlarıyla)
- Hata yakalama (sağ/sol, tarih, ölçüm birimi tutarlılığı gibi)
- Öneri ve takip aksiyonu çıkarımı (kontrol BT önerisi vb.)
Bu alanlarda KPI belirlemek kolaydır: rapor başına süre, düzeltme oranı, geri dönüş sayısı, takip randevuya dönüş oranı gibi.
2) “İnsan döngüde” yaklaşımını şart koşun
Benim kırmızı çizgim: LLM çıktısı tek başına klinik gerçek kabul edilmemeli.
Pratik bir onay akışı:
- LLM taslak üretir / etiketler
- Radyolog veya kıdemli tekniker kontrol eder
- Sistem “onaylandı” olmadan çıktıyı dışarı vermez
- Tüm değişiklikler denetim iziyle saklanır
3) Veri güvenliği ve KVKK’yi tasarımın başına koyun
Radyoloji raporları kişisel sağlık verisi içerir. Türkiye’de KVKK uyumu için çoğu kurumda şu yaklaşım daha gerçekçidir:
- On-premise veya kapalı ağda çalışan modeller
- Anonimleştirme/pseudonimleştirme
- Erişim rol bazlı kontrol
- Loglama ve sızma testleri
4) Ölçmeden büyütmeyin: Minimum güvenlik metrikleri
Pilotlarda mutlaka izlenmesi gereken metrikler:
- Olgusal hata oranı (ör. yanlış laterality, yanlış ölçüm)
- Nadir bulgu performansı (az görülen kritik tanılar)
- Düzeltme yükü (radyoloğun harcadığı ek süre)
- Tutarlılık (aynı girdiye benzer çıktı)
Kısa bir kural: Okunabilirlik artıp doğruluk düşüyorsa, bu ilerleme değildir.
Sık sorulan iki soru (ve net yanıtlar)
“GPT-4 gibi genel modeller mi, radyolojiye özel modeller mi?”
Yanıt: Üretim ortamında, yapılandırılmış işler için radyolojiye uyarlanmış (domain-adapted) modeller daha öngörülebilir.
Tarama, BERT ailesi ve alan uyarlamalı modellerin sınıflama/bilgi çıkarımında daha istikrarlı olduğunu gösteriyor. Genel modeller hızlı prototipte işe yarar; ama klinik entegrasyonda “öngörülebilirlik” daha değerlidir.
“Multimodal (görüntü + metin) LLM’ler hazır mı?”
Yanıt: Bazı görevlerde umut verici; fakat güvenli klinik kullanım için kanıt seviyesi henüz yeterli değil.
Görüntü yorumlama tarafında performans aralığı geniş. Bu da “bazı vakada iyi, bazı vakada yanlış” riskini büyütüyor. Sağlık hizmetinde problem, ortalamadan çok uç hatalardır.
Nereye gidiyoruz? 2026’da başarıyı belirleyecek şey
Radyolojide büyük dil modellerinin kaderini model boyutu değil, doğrulama ve yönetişim belirleyecek. Çok merkezli, prospektif testler; standart değerlendirme çerçeveleri; Türkçe veriyle ölçüm; ve net sorumluluk çizgileri olmadan klinik güven oluşmaz.
Ama tablo karamsar değil. Tam tersine: doğru yerde başlarsanız, LLM’ler radyoloğun zamanını geri kazandırır, rapor kalitesini daha tutarlı hale getirir ve hasta iletişimini iyileştirir. Bu da dijital sağlık dönüşümünde “küçük ama sürekli” verimlilik kazançları demek.
Sıradaki adım için pratik önerim: Kurumunuzda bir kullanım senaryosu seçin (ör. öneri çıkarımı veya rapor standardizasyonu), 6–8 haftalık pilot planlayın ve en baştan KPI + güvenlik metriklerini koyun.
2026’ya girerken asıl soru şu: Radyolojide LLM’leri ‘akıllı oyuncak’ olarak mı bırakacağız, yoksa güvenli ve ölçülebilir bir klinik yardımcıya mı çevireceğiz?