Veri Madenciliği

İnsanoğlu var olduğu günden beri yaşamını sürdürebilmek için bilgiye ihtiyaç duymuştur. İnsan nüfusunun artması ve dünyanın küreselleşmesi ile birlikte doğru bilgiye ulaşmak zorlaşır. Peki bilgiye nasıl ulaşılabiliyor ya da doğruluğunu nasıl karar verebiliyoruz?

Son zamanlarda adını sıklıkla duyuyor olduğumuz ve hayatımızın her noktasında var olan “Veri Madenciliği”  bilimi işte tam bu noktada bize yardımcı oluyor. Peki nasıl?

Bilgi; insan aklının alabileceği gerçek olgu ve ilkelerin tümüne verilen isimdir.  Daha genel bir ifade ile; bir konu hakkında öğrenilebilen ve öğretilebilen her şeydir. Bilginin ham maddesi veridir.

Tanım olarak ise veri; bir sonuca ulaşabilmek için kullanılan olaylar, nitelikler, nicelikler ve sayı kümelerine verilen genel isimdir. Örneğin hastaneye gittiğimizde oluşturulan kayıtlar, tahlil sonuçlarımız sağlık verileridir ya da yaptığımız alışverişlerde aldığımız ürünlerin kodları, isimleri hatta alışveriş ödememizi yaparken kredi kartımıza yaptırdığımız  taksit sayısı bile verilerdir.

Bir başka örnek ise hava durumu tahminleri yapılırken kullanılmakta olan geçmiş günlerin hatta yılların sıcaklık, nem, rüzgar hızı vs. değerleridir.  Çalışmalar sonucunda yapılan  hava durumu tahminleri ise bilgidir.

İnsan nüfusunun hızla artması ile var olan veri sayısını daha yüksek bir hızla arttırmaktadır. Peki her gün hatta her saniye artmakta olan ve bir yığın haline gelen verilerden anlamlı bilgiyi nasıl elde edeceğiz?  Tabi ki “Veri Madenciliği” biliminden faydalanarak.

İnsanlar ilk basit bilgisayarı 1950 yılında kullanmaya başladılar. Teknolojinin belki de en büyük adımlarından biri olan bu adım veri madenciliğinin de henüz bilinmeyen kapılarını araladı.

1960 yılında veri tabanı ve veri deposu kavramları hayata geçirilmiş ve aynı zamanda bu veriler bazı işlemlerde kullanılmaya başlamıştır. Veri madenciliğinin tam anlamıyla doğuşu işte burada başlıyor.

1970 ve 1990 yılları arasında ise veri madenciliğinin önemli kolları olan makine öğrenmesi, genetik algoritmalar   ve kümeleme yöntemleri kullanılmaya başlanılmıştır. Artık insanoğlunun bilgiye ulaşması çok daha kolay bir hale gelmiştir, ancak bu bağlamda veri madenciliği alanında çalışan insanlara büyük işler düşmektedir. Her saniye artan verileri gruplandırarak insanlığın en büyük ihtiyacı olan bilgiye ulaşmak onların çalışmalarına bağlıdır. Madenciliğin 20 yıl içerisinde aldığı bu uzun yol tüm insanlığın hayatını kolaylaştırdı. Peki veri madenciliği çalışmaları nasıl gerçekleştiriliyor, hangi adımlar izleniyor. Şimdi onları inceleyelim.

İlk olarak bilgiye ihtiyacımız olan alanı belirleyip veri tabanlarından ya da ambarlarından  verileri toplamaktır.   Toplanan veriler, analiz verileri ve test verileri olmak üzere 2’ye ayrılır. Analiz verileri tüm verilerin %80’ini oluşturmalıdır. Eğer veriler arasında hatalı ya da eksik  veri varsa çalışmanın daha sağlıklı olması  adına bunlar ayıklanmalıdır.

Projenin amacına ulaşması için verileri kullanarak bir model oluşturulmadır. Bu model veri madenciliği çalışmasının en önemli adımıdır. Modelin doğru kurulabilmesi için amacımızın çok iyi kavranması gerekmektedir. Modelimizin uygun  algoritmalar kullanarak bilgisayar tabanlı farklı programlarda çalıştırılması ve sonuçların raporlanması, değerlendirilmesi ile veri madenciliği çalışmamızı tamamlamış oluruz. Yapılan değerlendirme veriler arasındaki gizli örüntüyü keşfederek bilgiye ulaşmayı hedefler. 

Peki veri madenciliği alanında kullanılan bilgisayar programları nelerdir?

  • RapidMiner (YALE)
  • WEKA
  • ORANGE
  • R
  • KNIME
  • TANAGRA

Sosyal medyada zaman geçirirken ne tesadüftür ki daha 1 saat önce online alışveriş sitesine göz gezdirmiş olduğunuz X markasının reklamı karşınıza çıkmaktadır. Ya da daha önce alışveriş yaptığınız bir A ürünü hakkında telefonunuza her indirimde mesaj gelmektedir. Ancak sadece alışveriş yaptığınız firmadan değil, ürünü satmakta olan farklı firmalardan. İşte tüm bunlar ancak  veri madenciliği bilimi ile mümkündür. Şu anda bu yazıyı okursanız kim bilir belki 1 saat sonra reklamlarınız arasında online eğitim sitelerinin veri madenciliği eğitim reklamı ile karşılaşacaksınız 🙂 Görüyoruz ki attığımız her adım, yaptığımız her işlem karşımıza çıkabilir ve hayatımızı etkileyebilir. Tabi bu sadece veri madenciliği ile sınırlandırılamaz ama etkisini de küçümseyemeyiz. Her zaman doğru bilgiye, doğru zamanda ulaşabilmek ümidi ile 🙂