Veri Madenciliği; gelecek ile ilgili tahmin ya da çıkarım yapabilmek için, büyük veri setlerinde, anomalileri, modelleri, ilişkileri bularak, kullanışlı-anlamlı bilgiye ulaşma veya onu kullanma sürecidir.
Veri Madenciliğinin Dünden Bugüne Yolculuğu
İlk Bilgisayarların Ortaya Çıkışı(1950’ler)
Veritabanı ve Verilerin Depolanması
Yapay Sinir Ağları
İlişkisel Veritabanı Yönetim Sistemleri
Uzman Sistemler ve Makine Öğrenimi
Büyük Veritabanlarının Çıkışı
SQL Sorgu Dili
Veritabanlarında Bilgi Keşfi (KDD)
Veri Madenciliği Konusunda İlk Yazılımın Geliştirilmesi
Veri Ambarları ve Veri Madenciliğinin Yaygınlaşması
Neden Veri Madenciliği Yapılır?
Veri madenciliğinden elde edilen bilgi sayesinde;
Gelirleri artırmak,
Maliyetleri düşürmek,
Müşteri ile ilişkileri geliştirmek,
Riskleri azaltmak,
Etkili stratejiler geliştirmek,
Yeni fikirler üretebilmek,
Üzerinde çalışılan alanda daha sağlıklı öngörüde bulunmak,
mümkün olur.
Veri Madenciliğinin Aşamaları
Veri Seçimi
Seçilen konu ya da problemle ilgili uygun verilerin belirlenmesidir. Veri seçimi aşaması, çözüm sağlanması planlanan problemle ilişkili olmalı ve iyi analiz edilmelidir. Sonraki bütün aşamalar bu seçim üzerinden yürüyeceği için önemlidir ve doğrudan araştırmacının sorumluluğundadır.
Ön İşleme ve Veriyi Temizleme
Veri madenciliğinin bu aşamasına verinin tutarsız ve gürültülü olduğu durumlarda ihtiyaç duyulur. Gürültülü veri, amaca uygun bilgi barındıran fakat bu bilgiyi elde etmeyi zorlaştırıcı unsurlar taşıyan anlamındadır. Temizlenmesi gereken veri temizlenmeli, eksik kalan verinin yerine yenisi konulmalıdır. Eksik veri, veri kümesinden atılabilir, kayıp değerler yerine genel bir sabit kullanılabilir, kayıp yerine ortalama konulabilir veya tahmin yapılabilir.
Bu aşamada veri sonraki adımlar için uygun hale getirildiği için süreci doğrudan etkilemektedir. Başarılı bir ön işleme işlemi güvenilir sonuçlar elde etmeyi temin eder.
Veriyi İndirgeme
Büyük veri setlerinde veri madenciliği çalışmaları yapılırken veriyi ele almak maliyetli olabilir. Bu gibi durumlarda sonuca etkisinin önemsenmeyecek kadar az olduğunu düşündüğümüz veri veya değişkenlerin sayısı azaltılabilir.
Veriyi Bütünleştirme
Farklı farklı kaynaklardan alınan verilerin veri ambarına aktarılma durumunda aynı verinin birden fazla şekilde ifade edilebilmesi nedeniyle ikilemler oluşur.
Bu ikilemleri ortadan kaldırmak için tek türe bütünleştirmeler yapılmalıdır.
Örneğin: Farklı veri tabanı yönetim sistemlerinden veri ambarına gelen kayıtlardaki cinsiyet kayıtlarının “E”, “Erkek”, “Male”, gibi kayıtların “M” şekline bütünleştirilmesi.
Veriyi Dönüştürme
Veriyi bazı durumlarda veri madenciliği çözümlemelerine aynen katmak uygun olmayabilir. Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu takdirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır.
Ayıca değişkenlerin sahip olduğu çok büyük ve çok küçük değerler de çözümlemelerin sağlıklı biçimde yapılmasını engeller. Bu nedenle bir dönüşüm yöntemi uygulayarak söz konusu değişkenlerin normalleştirilmesi veya standartlaştırılması uygun bir yol olacaktır.
Veri Madenciliği Aşaması
Sürecin bu adımında önceki adımlarda hazırlanan veri kullanılarak çalışmanın amacına göre veri madenciliği yöntemleri uygulanır. Bu yöntemler çeşitli algoritmalar yardımıyla gerçekleşir, her algoritmanın kendine has veri giriş ve çıkışı gibi karakteristik özellikleri vardır.
Yorumlama ve Doğrulama
Yöntemlerden elde edilen sonuçlar karşılaştırılır ve yorumlanır. Genelde çalışma için yöntem seçiminde en başarılı olma ve kolay uygulanabilirlik baz alınır.
Veri Madenciliğinde Kullanılan Yöntem ve Araçlar
Basit Raporlama ve Analiz
Excel Grafikleri
Pivot Table
Excel Veri Analizi Eklentisi(Solver)
İstatistiki ve Analitik Yöntemler
Regresyon Teknikleri
Karar Ağaçları
Zaman Serileri
Conjoint Teknikler
Kümeleme Analizi
Faktör Analizi
Text Mining
Gelişmiş Analitik Yöntemler
Lineer Optimizasyon
Markov Zincirleri
Yapay Sinir Ağları
Lineer Ağlar
Genelleştirilmiş Lineer Ağlar
Perceptual Mapping
Survival Modeling
Kullanılan Araçlar
Excel Formül ve Araçları
İstatiksel Analiz Programları
SAS, SPSS(SPSS Climentine)
Data Analitiği ve Modelleme
Knowledge Studio
@Risk
PoweredDesigner
Karar Destek(OLAP)
Business Object
Hyperion
Cognos
ETL Araçları
Oracle Data Integrator(ODI)
Informatica
Datastage
Veritabanları ve Veri Ambarı(DWH)
Oracle
MS SQL Server
mySQL
Teradata
PostrgreSQL
Optimizasyon
AMPL
Lindo
CPLEX