top of page
  • Yazarın fotoğrafıDeniz Ekiz

Veri Madenciliği Nedir, Ne Değildir?

Veri Madenciliği; gelecek ile ilgili tahmin ya da çıkarım yapabilmek için, büyük veri setlerinde, anomalileri, modelleri, ilişkileri bularak, kullanışlı-anlamlı bilgiye ulaşma veya onu kullanma sürecidir.


Veri Madenciliğinin Dünden Bugüne Yolculuğu

  • İlk Bilgisayarların Ortaya Çıkışı(1950’ler)

  • Veritabanı ve Verilerin Depolanması

  • Yapay Sinir Ağları

  • İlişkisel Veritabanı Yönetim Sistemleri

  • Uzman Sistemler ve Makine Öğrenimi

  • Büyük Veritabanlarının Çıkışı

  • SQL Sorgu Dili

  • Veritabanlarında Bilgi Keşfi (KDD)

  • Veri Madenciliği Konusunda İlk Yazılımın Geliştirilmesi

  • Veri Ambarları ve Veri Madenciliğinin Yaygınlaşması



Neden Veri Madenciliği Yapılır?

Veri madenciliğinden elde edilen bilgi sayesinde;

  • Gelirleri artırmak,

  • Maliyetleri düşürmek,

  • Müşteri ile ilişkileri geliştirmek,

  • Riskleri azaltmak,

  • Etkili stratejiler geliştirmek,

  • Yeni fikirler üretebilmek,

  • Üzerinde çalışılan alanda daha sağlıklı öngörüde bulunmak,

mümkün olur.



Veri Madenciliğinin Aşamaları



Veri Seçimi

Seçilen konu ya da problemle ilgili uygun verilerin belirlenmesidir. Veri seçimi aşaması, çözüm sağlanması planlanan problemle ilişkili olmalı ve iyi analiz edilmelidir. Sonraki bütün aşamalar bu seçim üzerinden yürüyeceği için önemlidir ve doğrudan araştırmacının sorumluluğundadır.


Ön İşleme ve Veriyi Temizleme

Veri madenciliğinin bu aşamasına verinin tutarsız ve gürültülü olduğu durumlarda ihtiyaç duyulur. Gürültülü veri, amaca uygun bilgi barındıran fakat bu bilgiyi elde etmeyi zorlaştırıcı unsurlar taşıyan anlamındadır. Temizlenmesi gereken veri temizlenmeli, eksik kalan verinin yerine yenisi konulmalıdır. Eksik veri, veri kümesinden atılabilir, kayıp değerler yerine genel bir sabit kullanılabilir, kayıp yerine ortalama konulabilir veya tahmin yapılabilir.

Bu aşamada veri sonraki adımlar için uygun hale getirildiği için süreci doğrudan etkilemektedir. Başarılı bir ön işleme işlemi güvenilir sonuçlar elde etmeyi temin eder.


Veriyi İndirgeme

Büyük veri setlerinde veri madenciliği çalışmaları yapılırken veriyi ele almak maliyetli olabilir. Bu gibi durumlarda sonuca etkisinin önemsenmeyecek kadar az olduğunu düşündüğümüz veri veya değişkenlerin sayısı azaltılabilir.



Veriyi Bütünleştirme

Farklı farklı kaynaklardan alınan verilerin veri ambarına aktarılma durumunda aynı verinin birden fazla şekilde ifade edilebilmesi nedeniyle ikilemler oluşur.

Bu ikilemleri ortadan kaldırmak için tek türe bütünleştirmeler yapılmalıdır.

Örneğin: Farklı veri tabanı yönetim sistemlerinden veri ambarına gelen kayıtlardaki cinsiyet kayıtlarının “E”, “Erkek”, “Male”, gibi kayıtların “M” şekline bütünleştirilmesi.


Veriyi Dönüştürme

Veriyi bazı durumlarda veri madenciliği çözümlemelerine aynen katmak uygun olmayabilir. Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu takdirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır.

Ayıca değişkenlerin sahip olduğu çok büyük ve çok küçük değerler de çözümlemelerin sağlıklı biçimde yapılmasını engeller. Bu nedenle bir dönüşüm yöntemi uygulayarak söz konusu değişkenlerin normalleştirilmesi veya standartlaştırılması uygun bir yol olacaktır.



Veri Madenciliği Aşaması

Sürecin bu adımında önceki adımlarda hazırlanan veri kullanılarak çalışmanın amacına göre veri madenciliği yöntemleri uygulanır. Bu yöntemler çeşitli algoritmalar yardımıyla gerçekleşir, her algoritmanın kendine has veri giriş ve çıkışı gibi karakteristik özellikleri vardır.


Yorumlama ve Doğrulama

Yöntemlerden elde edilen sonuçlar karşılaştırılır ve yorumlanır. Genelde çalışma için yöntem seçiminde en başarılı olma ve kolay uygulanabilirlik baz alınır.



Veri Madenciliğinde Kullanılan Yöntem ve Araçlar


Basit Raporlama ve Analiz

  • Excel Grafikleri

  • Pivot Table

  • Excel Veri Analizi Eklentisi(Solver)

İstatistiki ve Analitik Yöntemler

  • Regresyon Teknikleri

  • Karar Ağaçları

  • Zaman Serileri

  • Conjoint Teknikler

  • Kümeleme Analizi

  • Faktör Analizi

  • Text Mining

Gelişmiş Analitik Yöntemler

  • Lineer Optimizasyon

  • Markov Zincirleri

  • Yapay Sinir Ağları

  • Lineer Ağlar

  • Genelleştirilmiş Lineer Ağlar

  • Perceptual Mapping

  • Survival Modeling

Kullanılan Araçlar

  • Excel Formül ve Araçları

İstatiksel Analiz Programları

  • SAS, SPSS(SPSS Climentine)

Data Analitiği ve Modelleme

  • Knowledge Studio

  • @Risk

  • PoweredDesigner

Karar Destek(OLAP)

  • Business Object

  • Hyperion

  • Cognos

ETL Araçları

  • Oracle Data Integrator(ODI)

  • Informatica

  • Datastage

Veritabanları ve Veri Ambarı(DWH)

  • Oracle

  • MS SQL Server

  • mySQL

  • Teradata

  • PostrgreSQL

Optimizasyon

  • AMPL

  • Lindo

  • CPLEX





10 görüntüleme0 yorum

Son Yazılar

Hepsini Gör
bottom of page