Veri Mühendisliği
Klinik Veriyi Makine Öğrenmesine Hazırlamak: Adım Adım Kılavuz
Bir yapay zeka modeli ne kadar iyi tasarlanmış olursa olsun, üzerine eğitildiği veri kadar iyidir. Tıbbi AI çalışmalarında başarısızlıkların büyük çoğunluğu model mimarisinde değil, veri kalitesinde yatar.
Bu yazıda, ham hastane verisini makine öğrenmesi modeline uygun hâle getirmenin temel adımlarını ele alıyoruz.
Ham Klinik Veri Neden Doğrudan Kullanılamaz?
Hastane bilgi sistemlerinden çekilen veriler genellikle şu sorunları barındırır:
- Eksik değerler: Bazı hastaların belirli ölçümleri kaydedilmemiş olabilir
- Tutarsız kodlama: Aynı tanı farklı asistanlar tarafından farklı kodlanmış olabilir (ICD-10 uyumsuzlukları)
- Aykırı değerler: Veri giriş hataları ya da gerçek klinik aykırılıklar
- Kategorik değişken çeşitliliği: "Evet/Hayır", "E/H", "1/0" gibi aynı bilginin farklı formatlarda girilmesi
- Kimlik bilgileri: KVKK kapsamında işlenmeden modele giremeyecek kişisel veriler
Adım 1: Anonimizasyon ve KVKK Uyumu
Yapay zeka modeline girecek her veri, kişisel tanımlayıcılardan arındırılmış olmalıdır. Bu yalnızca etik bir zorunluluk değil, yasal bir gerekliliktir.
Anonimizasyon süreci şunları kapsar:
- TC kimlik numarası, ad-soyad, doğum tarihi gibi doğrudan tanımlayıcıların kaldırılması
- Hastane protokol numaralarının rastgele ID'lerle değiştirilmesi
- Nadir tanıların veya küçük kohortlarda benzersiz kombinasyonların yeniden tanımlama (re-identification) riski açısından değerlendirilmesi
Etik kurul başvurusunda, verinin nasıl anonimize edileceği teknik olarak belgelenmelidir.
Adım 2: Veri Temizleme
Temizleme süreci verinin yapısına göre değişir, ancak genel adımlar şöyledir:
Eksik veri analizi: Hangi değişkenlerde, ne oranda eksik veri var? Eksiklik rastgele mi yoksa sistematik mi? Bu soruların cevabı, eksik veriyle nasıl baş edileceğini belirler, silme mi, imputation mı?
Aykırı değer tespiti: Box-plot ve Z-skor yöntemleriyle aykırı gözlemler tespit edilir. Her aykırı değer hata değildir; klinik uzman görüşü gerekebilir.
Tutarlılık kontrolü: Yaşı 200 olan hasta, hemoglobin değeri negatif olan kayıt, bu tür mantıksal tutarsızlıklar sistematik olarak taranır.
Adım 3: Feature Engineering
Ham değişkenler her zaman modele doğrudan girmez. Klinik bilgi gerektiren dönüşümler bu aşamada yapılır:
- Sürekli değişkenlerin kategorilere ayrılması (örn. BMI → normal / fazla kilolu / obez)
- Tarih değişkenlerinden klinik anlamlı sürelerin hesaplanması
- Birden fazla değişkenden türetilen bileşik skorlar (APACHE, SOFA gibi)
Adım 4: Train–Validation–Test Ayrımı
Medikal AI çalışmalarında veri ayrımı özellikle kritiktir. Küçük veri setlerinde k-fold cross-validation tercih edilirken, büyük veri setlerinde standart 70-15-15 ayrımı uygulanabilir.
Önemli bir nokta: eğer verileriniz farklı hastanelerden geliyorsa, external validation için ayrı bir kohort planlanmalıdır. Bu, modelin gerçek dünya performansını gösterir.
Adım 5: Dokümantasyon
Tüm veri hazırlama adımları, tekrar edilebilirlik için dokümante edilmelidir. Makale yazım aşamasında Methods bölümü için bu dökümanlar doğrudan kullanılır ve hakem sorularına karşı sizi korur.
Klinik veri hazırlama süreci teknik bilgi ve klinik deneyimin kesişiminde durur. Bir biyomedikal mühendis, bu iki dünyayı birleştirerek sürecin hem teknik açıdan sağlam hem de klinik açıdan anlamlı olmasını sağlayabilir.