AI Çalışma Tasarımı
Medikal AI Çalışmasında Ground Truth Neden En Kritik Adımdır?
Yapay zeka modelinizin performansı, üzerine eğitildiği etiketlerin kalitesiyle sınırlıdır. %95 doğruluk iddiasıyla yayınlanan bir model, eğer etiketleme protokolü hatalıysa gerçek klinik ortamda çok daha düşük performans gösterir. Bu durum tıbbi AI literatüründe "garbage in, garbage out" olarak tanımlanır ve alanın en büyük metodolojik sorunlarından biridir.
Ground Truth Neden Sadece "Uzmanın İşaretlemesi" Değildir?
En yaygın yanılgı şudur: "Bir radyolog veya cerrah görüntüleri işaretlerse ground truth hazırdır."
Hayır. Ground truth bir protokoldür, bir kişinin işaretlemesi değil.
Tek bir uzmanın etiketlediği veri setinde birkaç ciddi sorun vardır. Uzmanın kendi içinde tutarsızlığı (intra-rater variability) zaman içinde değişir, aynı görüntüyü iki hafta arayla farklı etiketleyebilir. Uzmana özgü önyargılar (specialty bias) modele aktarılır. En önemlisi: Tek etiketleyici ile yapılan çalışma, yüksek etkili dergilerde metodolojik zayıflık olarak değerlendirilir ve reviewer tarafından işaretlenir.
Uzmanlar Arası Uyumsuzluk Gerçektir
Radyolojide yapılan çalışmalar, deneyimli uzmanların aynı görüntüyü bağımsız olarak değerlendirdiğinde önemli düzeyde uyumsuzluk gösterdiğini ortaya koymaktadır. Bu durum patoloji, dermatoloji ve ortopedide de benzerdir.
Bu uyumsuzluk kötü uzmanlık anlamına gelmez. Tıbbi görüntü yorumunda gerçek belirsizlik (ambiguity) vardır ve bu belirsizlik modele aktarıldığında modelin de belirsiz davranmasına neden olur.
Ground truth protokolü bu uyumsuzluğu nasıl yöneteceğini önceden tanımlamalıdır. Uyumsuzluk durumunda ne yapılır? Üçüncü uzman mı devreye girer? Oylamayla mı karar verilir? Belirsiz vakalar veri setinden mi çıkarılır? Bu kararların her biri modelin davranışını etkiler.
En Sık Yapılan Hatalar ve Sonuçları
Etiketleme kılavuzu olmadan başlamak: İki uzman aynı terimi farklı anlıyorsa, örneğin "grade 2 OA" için farklı kriterler kullanıyorlarsa, veri seti sistematik olarak tutarsız olur. Model bu tutarsızlıkları öğrenir.
Inter-rater agreement'ı raporlamamak: Cohen's kappa veya ICC hesaplanmadan yayına gönderilen AI çalışmaları reviewer tarafından direkt reddedilir. "Two independent radiologists annotated the images" cümlesi artık yeterli değil, uyum katsayısı isteniyor.
Etiketçi yorgunluğunu göz ardı etmek: Yüzlerce görüntüyü ardı ardına etiketleyen uzmanın dikkat kalitesi düşer. Oturum süresi, mola protokolü ve kalite kontrol kontrol noktaları tanımlanmamışsa veri setinin son yarısı ilk yarısından sistematik olarak farklı olabilir.
Sınır vakaları için protokol yoksa: Her veri setinde tanı koymayı güçleştiren "borderline" vakalar vardır. Bunların sistematik olarak nasıl ele alınacağı önceden belirlenmemişse her etiketçi farklı karar verir.
Bu Süreçte Nerede Takılınır?
Araştırmacıların en çok zorlandığı noktalar şunlardır: Etiketleme yazılımı seçimi ve kurulumu. DICOM dosyalarının etiketleme platformuna aktarılması. Uzman zamanının koordinasyonu ve takibi. Kalite kontrol sürecinin otomasyonu. Anlaşmazlık vakalarının çözüm protokolü.
Her biri ayrı bir teknik ve organizasyonel karar gerektirir. Bu kararlar veri toplama başlamadan belirlenmezse sonradan düzeltmek çok maliyetlidir.
Medikal AI çalışmanızın ground truth protokolünü birlikte tasarlamak için 30 dakikalık ücretsiz görüşme talep edin.
Bu Analizde En Çok Nerede Takılınır?
- İki uzman aynı görüntüyü farklı etiketledi, inter-rater agreement düşük, hangisinin doğru olduğuna karar veremiyorsunuz.
- Annotasyon protokolü oluşturdunuz ama gerçek veriye uygulandığında sınır vakalar çok fazla çıkıyor.
- Ground truth oluşturma süreci beklediğinizden 5 kat uzun sürdü ve hâlâ bitmedi.