Veri Madenciliği:WEKA-Giriş

Merhabalar,

Sizlerle birlikte veri madenciliğinde kullanılan, proje ve akademik araştırmalarda sıklıkla adı geçen programlardan biri olan WEKA ‘yı adım adım inceleyeceğiz.

Weka’ya değinmeden önce kısaca veri madenciliğinden bahsedecek olursak; verilerin içerisinden bilginin çıkarılmasıdır diyebiliriz. Her gün birçok bilgi ile iç içeyiz ama bunların bir kısmı gereksiz bilgidir. Hazineye ulaşmak için gereksiz olan birçok taştan kurtulmak gerekir, bizim amacımızda burada sonuca ulaşmak için gereksiz bilgileri temizlemektir.

Bu durum en çok pazarlama alanında kullanılmaktadır. Doğru kişiyi bulup doğru ürünü satabilmek zamandan kazanç sağlarken daha çok kar elde etmemizi sağlar. Arama motorundan önceden arattığınız spor ayakkabısına dair birçok reklamın artık sayfanızda döndüğünü fark etmişsinizdir. Artık size ait bilgiler revize olmuş ve doğru ürün doğru müşteriye ulaşmak için reklamları kullanmaya başlamıştır. Youtube koyulan videolarda da telif hakkı olan şarkıların tespiti için de veri madenciliği kullanılır. Bilginin hayatımızdaki öneminin daha iyi anlaşılması için son olarak ”Hüküm ve Koşullar Geçerli Olabilir” belgeselini izlemenizi tavsiye ederim. Asıl konumuza geçmeden önce veri madenciliği nedir biraz da olsa gözümüzde canlanmıştır. 

Peki WEKA Nedir?

Öncelikle WEKA; Waikato Üniversitesinde geliştirilmiş ve “Waikato Environment for Knowledge Analysis” kelimelerinin baş harflerinden oluşmaktadır. Açık kaynak kodlu Java programlama dili ile yazılmış veri madenciliği ve makine öğrenmesi için kullanılan bir yazılımdır. İş zekası alanında en çok kullanılan 10 yazılımdan birisi olup, özgür yazılımlar sıralamasında ilk 3 sırada yer almaktadır.

 

Weka, tamamen modüler bir tasarıma sahip olup, içerdiği özelliklerle veri kümeleri üzerinde görselleştirme, veri analizi, iş zekası uygulamaları, veri madenciliği gibi işlemler yapabilmektedir. Makine öğrenmesi ve istatistik ile ilgili pek çok kütüphane hazır olarak gelmektedir. Bunun yanında verileri basit bir dosyadan okur ve veriler üzerindeki stokastik değişkenlerin sayısal veya nominal değerler olduğunu kabul eder ve veritabanı (database) üzerinden de veri çekebilmenize imkan sağlar.

Temel olarak aşağıdaki 3 Veri Madenciliği işlemi Weka ile yapılabilir:

  • Sınıflandırma (Classification)
  • Gruplandırma (Clustering)
  • İlişkilendirme (Association)

Ayrıca veri kümeleri üzerinde ön ve son işlemler yapılabilir

  • Veri Ön işleme (Data Pre-Processing)
  • Görselleme (Visualization)

Bu işlemlerin uygulanması ve sonucunun görsel olarak görüntülenmesi sağlanır. Görsel çıktılara ulaşılması, hazır algoritmaların yanında kendi algoritmalarımızı kullanmamıza imkan sağlanması birçok projede kullanılan programlardan biri olmasını sağlamıştır.

Programın kullanımı ve kurulumu için sonraki eğitim yazılarında görüşmek üzere.