Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi

The Effect of Feature Selection Methods to Classification Performance in Health Datasets

Yazarlar

DOI:

https://doi.org/10.52309/jai.2021.2

Özet

Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyutlu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Öznitelik seçim yöntemleri filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada makine öğrenmesi sınıflandırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yöntemleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğruluk değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma performansları ve çalışma süreleri hesaplanmıştır. Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87’e, Parkinson  için % 85’e, SCADI için % 97’ye, HCC için % 100’e ve meme kanseri için% 78'e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç olarak, düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir.

İndir

Yayınlanmış

2021-04-15