Veri madenciliği vs Veri Ambarı
Veri Madenciliği ve Veri Ambarı, verileri analiz etmek için hem çok güçlü hem de popüler tekniklerdir. İstatistiklere meyilli kullanıcılar Veri Madenciliğini kullanır. Verilerdeki gizli kalıpları aramak için istatistiksel modeller kullanırlar. Veri madencileri, nihayetinde işletmeler için karlı olan farklı veri öğeleri arasında faydalı ilişkiler bulmakla ilgilenir. Ancak öte yandan, işin boyutlarını doğrudan analiz edebilen veri uzmanları, Veri ambarlarını kullanma eğilimindedir.
Veri madenciliği, verilerde Bilgi Keşfi (KDD) olarak da bilinir. Yukarıda bahsedildiği gibi, daha önce bilinmeyen ve ilginç bilgilerin ham verilerden çıkarılmasıyla ilgilenen bir bilgisayar bilimi alanıdır. Özellikle iş gibi alanlarda verilerin katlanarak büyümesi nedeniyle, veri madenciliği, bu büyük veri zenginliğini iş zekasına dönüştürmek için çok önemli bir araç haline geldi, çünkü son birkaç on yılda kalıpların manuel olarak çıkarılması imkansız hale geldi. Örneğin şu anda sosyal ağ analizi, dolandırıcılık tespiti ve pazarlama gibi çeşitli uygulamalar için kullanılmaktadır. Veri madenciliği genellikle şu dört görevle ilgilenir: kümeleme, sınıflandırma, gerileme ve ilişkilendirme. Kümeleme, yapılandırılmamış verilerden benzer grupların belirlenmesidir. Sınıflandırma, yeni verilere uygulanabilen öğrenme kurallarıdır ve tipik olarak şu adımları içerir: verilerin ön işlenmesi, modellemenin tasarlanması, öğrenme/özellik seçimi ve Değerlendirme/doğrulama. Regresyon, verileri modellemek için minimum hatayla işlevler bulmaktır. Ve ilişkilendirme, değişkenler arasındaki ilişkileri arıyor. Veri madenciliği genellikle gelecek yıl Wal-Mart'ta yüksek kâr elde etmeye yardımcı olabilecek ana ürünler nelerdir? gibi soruları yanıtlamak için kullanılır.
Yukarıda belirtildiği gibi, Veri ambarı da verileri analiz etmek için kullanılır, ancak farklı kullanıcı grupları tarafından ve biraz farklı bir amaç göz önünde bulundurularak. Örneğin, perakende sektörü söz konusu olduğunda, Veri ambarı kullanıcıları müşteriler arasında ne tür satın almaların popüler olduğuyla daha fazla ilgilenir, bu nedenle analiz sonuçları müşteri deneyimini iyileştirerek müşteriye yardımcı olabilir. Ancak Veri madencileri önce hangi müşterilerin belirli bir ürün türünü satın aldığı gibi bir hipotez kurar ve hipotezi test etmek için verileri analiz eder. Veri ambarı, büyük bir perakendeci tarafından, başlangıçta mağazalarını aynı boyutlarda ürünlerle stoklayan ve daha sonra New York mağazalarının Chicago mağazalarından çok daha hızlı daha küçük boyutlu envanter sattığını öğrenen tarafından gerçekleştirilebilir. Dolayısıyla perakendeci bu sonuca bakarak New York mağazasını Chicago mağazalarına göre daha küçük boyutlarda stoklayabilir.
Yani, açıkça görebileceğiniz gibi, bu iki analiz türü çıplak gözle aynı nitelikte görünüyor. Her ikisi de tarihsel verilere dayalı olarak artan kârlardan endişe duyuyor. Ama elbette, önemli farklılıklar var. Basit bir ifadeyle, Veri Madenciliği ve Veri Ambarı, farklı türde analizler sağlamaya adanmıştır, ancak kesinlikle farklı kullanıcı türleri için. Başka bir deyişle, Veri Madenciliği, istatistiksel bir hipotezi desteklemek için korelasyonları, kalıpları arar. Ancak, Veri Ambarı, nispeten daha geniş bir soruyu yanıtlar ve gelecekte iyileştirme yollarını tanımak için verileri oradan dilimler ve parçalara ayırır.