Veri Madenciliği  – Veritabanından Bilgi Keşfi – 2

Merhabalar 🙂

Veri Madenciliği serimizin 2. yazısında bilgiyi elde etme aşamalarından yani bilgi keşfinden bahsedeceğiz.

Oldukça fazla, birikmiş veriler (big data) arasında saklı kalmış, doğru, kıymetli, tutarlı ve işe yarar bilgileri ortaya çıkaran  ve stratejik karar aşamasında kullanılmasını sağlayan veri
tabanında bilgi keşfi; geniş alanları kaplayan veriyi işe yarar hale getiren ve birçok sektöre farklı bir bakış açıları kazandıran bir yöntemdir. Elde edilen bilgi başta karar almalar olmak üzere bir çok durum için kullanılmaktadır. Veri madenciği gün geçtikçe yaygınlaşmaktadır.

Araştırmacılar big data dediğimiz bu muazzam büyüklükte ki veri tabanlarını
herhangi bir araç kullanmadan sadece analize tabi tutularak karar destek aşamasında kullanımının imkansız olduğunu görmüşler ve bu aşamada veritabanından bilgi keşfi kavramı ortaya çıkmıştır.

Veritabanından bilgi keşfi; veriden yararlı bilgi çıkarma sürecidir.

 

Bilgi keşfinin gerçekleştirilebilmesi için verilerin veri ambarı gibi bir veri tabanı düzeninde olması gerekmektedir. Veri ambarı düzeni; büyük bir analitik veri tabanıdır. Sorgulama, raporlama ve analizler için oluşturulurlar. Veri ambarları içerisinde işlemsel verilerin yanı sıra işlemsel olmayan veriler de barındırmaktadır. Bu sebepten dolayı bilgi keşfi kaçınılmaz olmuştur. Tabii veri ambarının düzeninin fazlalığı bilgi keşfinin sağlıklı olması ve hızlı gerçekleşmesi bakımından etkendir.

Bilgi Keşfi Süreci

  1. Hedef belirlenir. Araştırılacak bilgi ve çalışma amacı belirlenir. Uygulama alanıyla ilgili çeşitli hazırlıklar yapılır.
  2. Uygun veri seti seçme veya oluşturulur. Bu aşama verileri birleştirerek sorgu için uygun örneklemleri oluşturmayı amaçlar.
  3. Ön işleme ve temizleme. 2. aşamada oluşturulan örneklemde bulunan hatalı, gereksiz veya eksik veriler temizlenir veya değiştirilir. Bu aşama keşfedilecek bilginin değerinin ve kalitesinin arttırıldığı aşamadır.
  4. Uygun bir veri madenciliği programı ve algoritması seçilir. Bu aşamada hangi veri madenciliği türü kullanılacağına karar verilir.  (Örneğin; sınıflandırma, regresyon veya kümeleme gibi). Bu genelde veri tabanında bilgi keşfi amacına ve önce ki aşamalarına bağlıdır. Bu aşamada ayrıca strateji belirlenmelidir, kullanılacak taktiklere karar verilmelidir, örüntü araştırmak için kullanılacak kesin bir metot seçilmesi gerekir. 
  5. Veri madenciliği algoritmasını çalıştırmak: Bu aşamada karar verilen veri madenciliği algoritması uygulanır. Burada amaç tatmin edici sonuca ulaşana kadar algoritmayı çalıştırmaktır.
  6. Değerlendirme ve bilgi keşfini kullanmak: Bu aşamada oluşan örüntüler değerlendirilerek birinci aşamada belirlenen amaç ile alaka kurulmalıdır ve elde edilen bilgi amaca yönelik kullanılmalıdır.

 

Konu ile ilgili soru ve görüşleriniz için bana bkara@industryolog.com mail adresimden ulaşabilirsiniz. 

Esen kalın…