Bilgisayar Mühendisliği Bölümü Öğrencilerimizin Çevresel Faktörler Ve Genetik Varyantların Bütünleştirilmesiyle Makine Öğrenmesine Dayalı Bir Tahmin Modeli

Bu çalışmada, çevresel faktörler ve genetik varyantların bütünleştirilmesiyle makine öğrenmesine dayalı bir tahmin modeli geliştirilmiş ve bu modelin diyabet, hipertansiyon ve kalp krizi gibi kompleks kronik hastalıkların öngörüsündeki başarımı kapsamlı şekilde analiz edilmiştir. Çalışmanın temel amacı, farklı kaynaklardan elde edilen biyolojik ve çevresel verileri entegre ederek, bireysel hastalık riskinin erken safhada tahmin edilebilmesini sağlayan bir karar destek sistemi ortaya koymaktır. Bu bağlamda, hastalıklarla güçlü korelasyon gösterdiği bilimsel yayınlarla doğrulanmış SNP’ler (Single Nucleotide Polymorphism), GWAS (Genome-Wide Association Studies) veri tabanından toplanmış; eksik kalan genetik bilgiler, popülasyon gen frekansları temel alınarak simüle edilmiştir. Bu yöntem, gerçek hasta verilerine erişimin kısıtlı olduğu durumlarda biyolojik gerçekçiliği koruyarak model geliştirme imkânı sunmaktadır.

Çevresel veriler yaş, cinsiyet, beslenme alışkanlıkları, sigara ve alkol tüketimi, fiziksel aktivite düzeyi, uyku düzeni ve kronik stres gibi değişkenleri kapsamaktadır. Farklı veri türleri içerdiği için ön işleme süreci kritik öneme sahiptir. Eksik değer analizi, one-hot encoding, Z-score normalizasyonu ve varyans filtresi gibi işlemler uygulanarak verinin modellemeye uygun hâle getirilmesi sağlanmıştır. Model eğitimi sürecinde farklı algoritmalar denenmiş, ancak XGBoost algoritması, yüksek boyutlu, dengesiz ve heterojen veri setlerinde sağladığı başarım, hız ve yorumlanabilirlik avantajı nedeniyle tercih edilmiştir. Aynı zamanda bu algoritma, özellik önem derecelerini belirleyerek hangi genetik veya çevresel faktörlerin tahmine daha çok katkı sunduğunu açıklama imkânı da sağlamıştır.

Modelin performansı, doğruluk (accuracy), F1 skoru, ROC-AUC, özgüllük (specificity), duyarlılık (sensitivity) ve Matthews korelasyon katsayısı gibi metriklerle ölçülmüş, entegre veri kullanan modelin, sadece genetik ya da sadece çevresel veriye dayalı modellere kıyasla anlamlı derecede daha başarılı olduğu gözlemlenmiştir. Bu sonuç, çok etkenli (multifaktöriyel) hastalıkların tahmininde tek boyutlu analizlerin yetersiz kaldığını, veri entegrasyonunun ise model başarımını belirgin biçimde artırdığını ortaya koymuştur. Sonuç olarak geliştirilen bu sistem, kişiselleştirilmiş tıbbın temelini oluşturan risk bazlı erken uyarı sistemleri için umut verici bir yapı sunmaktadır. Ayrıca, bu yaklaşım, toplum sağlığı yönetimi, önleyici tıp ve bireye özel tedavi protokollerinin geliştirilmesinde de etkin biçimde kullanılabilir potansiyele sahiptir.

Facebook
Twitter
LinkedIn
Pinterest
Email