Klinik Veriyi Makine Öğrenmesine Hazırlamak: Adım Adım Kılavuz

Bir yapay zeka modeli ne kadar iyi tasarlanmış olursa olsun, üzerine eğitildiği veri kadar iyidir. Tıbbi AI çalışmalarında başarısızlıkların büyük çoğunluğu model mimarisinde değil, veri kalitesinde yatar.

Bu yazıda, ham hastane verisini makine öğrenmesi modeline uygun hâle getirmenin temel adımlarını ele alıyoruz.

Ham Klinik Veri Neden Doğrudan Kullanılamaz?

Hastane bilgi sistemlerinden çekilen veriler genellikle şu sorunları barındırır:

Eksik değerler: Bazı hastaların belirli ölçümleri kaydedilmemiş olabilir
Tutarsız kodlama: Aynı tanı farklı asistanlar tarafından farklı kodlanmış olabilir (ICD-10 uyumsuzlukları)
Aykırı değerler: Veri giriş hataları ya da gerçek klinik aykırılıklar
Kategorik değişken çeşitliliği: "Evet/Hayır", "E/H", "1/0" gibi aynı bilginin farklı formatlarda girilmesi
Kimlik bilgileri: KVKK kapsamında işlenmeden modele giremeyecek kişisel veriler

Adım 1: Anonimizasyon ve KVKK Uyumu

Yapay zeka modeline girecek her veri, kişisel tanımlayıcılardan arındırılmış olmalıdır. Bu yalnızca etik bir zorunluluk değil, yasal bir gerekliliktir.

Anonimizasyon süreci şunları kapsar:

TC kimlik numarası, ad-soyad, doğum tarihi gibi doğrudan tanımlayıcıların kaldırılması
Hastane protokol numaralarının rastgele ID'lerle değiştirilmesi
Nadir tanıların veya küçük kohortlarda benzersiz kombinasyonların yeniden tanımlama (re-identification) riski açısından değerlendirilmesi

Etik kurul başvurusunda, verinin nasıl anonimize edileceği teknik olarak belgelenmelidir.

Adım 2: Veri Temizleme

Temizleme süreci verinin yapısına göre değişir, ancak genel adımlar şöyledir:

Eksik veri analizi: Hangi değişkenlerde, ne oranda eksik veri var? Eksiklik rastgele mi yoksa sistematik mi? Bu soruların cevabı, eksik veriyle nasıl baş edileceğini belirler, silme mi, imputation mı?

Aykırı değer tespiti: Box-plot ve Z-skor yöntemleriyle aykırı gözlemler tespit edilir. Her aykırı değer hata değildir; klinik uzman görüşü gerekebilir.

Tutarlılık kontrolü: Yaşı 200 olan hasta, hemoglobin değeri negatif olan kayıt, bu tür mantıksal tutarsızlıklar sistematik olarak taranır.

Adım 3: Feature Engineering

Ham değişkenler her zaman modele doğrudan girmez. Klinik bilgi gerektiren dönüşümler bu aşamada yapılır:

Sürekli değişkenlerin kategorilere ayrılması (örn. BMI → normal / fazla kilolu / obez)
Tarih değişkenlerinden klinik anlamlı sürelerin hesaplanması
Birden fazla değişkenden türetilen bileşik skorlar (APACHE, SOFA gibi)

Adım 4: Train–Validation–Test Ayrımı

Medikal AI çalışmalarında veri ayrımı özellikle kritiktir. Küçük veri setlerinde k-fold cross-validation tercih edilirken, büyük veri setlerinde standart 70-15-15 ayrımı uygulanabilir.

Önemli bir nokta: eğer verileriniz farklı hastanelerden geliyorsa, external validation için ayrı bir kohort planlanmalıdır. Bu, modelin gerçek dünya performansını gösterir.

Adım 5: Dokümantasyon

Tüm veri hazırlama adımları, tekrar edilebilirlik için dokümante edilmelidir. Makale yazım aşamasında Methods bölümü için bu dökümanlar doğrudan kullanılır ve hakem sorularına karşı sizi korur.

Klinik veri hazırlama süreci teknik bilgi ve klinik deneyimin kesişiminde durur. Bir biyomedikal mühendis, bu iki dünyayı birleştirerek sürecin hem teknik açıdan sağlam hem de klinik açıdan anlamlı olmasını sağlayabilir.

Klinik verinizi analiz edilebilir hale getirmek için 30 dakikalık ücretsiz görüşme talep edin.

Bu Analizde En Çok Nerede Takılınır?

Excel'deki verileriniz tutarsız kodlanmış, temizleme sürecinde verinin yarısını kaybediyorsunuz.
Anonimizasyon yaptınız ama KVKK uyumu teknik olarak belgelenmiş mi emin değilsiniz.
Feature engineering aşamasında hangi değişkenlerin modele girmesi gerektiğine klinik gerekçeyle karar veremiyorsunuz.