Hiyerarşik ve Bölmeli Kümeleme
Kümeleme, verileri analiz etmeye ve benzer veri gruplarına ayırmaya yönelik bir makine öğrenimi tekniğidir. Bu gruplar veya benzer veri kümeleri, kümeler olarak bilinir. Küme analizi, kümeleri otomatik olarak tanımlayabilen kümeleme algoritmalarına bakar. Hiyerarşik ve Bölümsel, bu tür iki kümeleme algoritması sınıfıdır. Hiyerarşik kümeleme algoritmaları, verileri bir küme hiyerarşisine böler. Kısmi algoritmalar, veri kümesini birbirinden ayrık bölümlere ayırır.
Hiyerarşik Kümeleme Nedir?
Hiyerarşik kümeleme algoritmaları, daha küçük kümeleri daha büyük kümelerle birleştirme veya daha büyük kümeleri daha küçük kümelere bölme döngüsünü tekrarlar. Her iki durumda da, dendogram adı verilen bir küme hiyerarşisi üretir. Aglomeratif kümeleme stratejisi, kümeleri daha büyük kümelerle birleştirmenin aşağıdan yukarıya yaklaşımını kullanırken, bölücü kümeleme stratejisi, daha küçük kümelere bölmenin yukarıdan aşağıya yaklaşımını kullanır. Tipik olarak, birleştirmek/bölmek için hangi büyük/küçük kümelerin kullanılacağına karar vermede açgözlü yaklaşım kullanılır. Öklid mesafesi, Manhattan mesafesi ve kosinüs benzerliği, sayısal veriler için en sık kullanılan benzerlik ölçümlerinden bazılarıdır. Sayısal olmayan veriler için Hamming mesafesi gibi metrikler kullanılır. Hiyerarşik kümeleme için gerçek gözlemlerin (örneklerin) gerekli olmadığına dikkat etmek önemlidir, çünkü yalnızca mesafe matrisi yeterlidir. Dendogram, hiyerarşiyi çok net bir şekilde gösteren kümelerin görsel bir temsilidir. Kullanıcı, dendogramın kesildiği seviyeye bağlı olarak farklı kümelemeler elde edebilir.
Bölümsel Kümeleme Nedir?
Kısmi kümeleme algoritmaları çeşitli bölümler oluşturur ve ardından bunları bazı kriterlere göre değerlendirir. Ayrıca, her bir örnek birbirini dışlayan k kümeden tam olarak birine yerleştirildiği için hiyerarşik olmayan olarak da adlandırılırlar. Tipik bir bölümlü kümeleme algoritmasının çıktısı yalnızca bir küme kümesi olduğundan, kullanıcının istenen sayıda kümeyi (genellikle k olarak adlandırılır) girmesi gerekir. En yaygın olarak kullanılan bölümlü kümeleme algoritmalarından biri, k-ortalama kümeleme algoritmasıdır. Kullanıcının, başlamadan önce küme sayısını (k) sağlaması gerekir ve algoritma önce k bölümünün merkezlerini (veya merkezlerini) başlatır. Özetle, k-ortalama kümeleme algoritması daha sonra üyeleri mevcut merkezlere göre atar ve mevcut üyelere göre merkezleri yeniden tahmin eder. Bu iki adım, belirli bir küme içi benzerlik amaç fonksiyonu ve kümeler arası benzerlik amaç fonksiyonu optimize edilene kadar tekrarlanır. Bu nedenle, merkezlerin mantıklı bir şekilde başlatılması, bölümlü kümeleme algoritmalarından kaliteli sonuçlar elde etmede çok önemli bir faktördür.
Hiyerarşik ve Bölmeli Kümeleme arasındaki fark nedir?
Hiyerarşik ve Bölmeli Kümelemenin çalışma süresi, varsayımlar, girdi parametreleri ve sonuçtaki kümelerde önemli farklılıkları vardır. Tipik olarak, bölümlü kümeleme, hiyerarşik kümelemeden daha hızlıdır. Hiyerarşik kümeleme yalnızca bir benzerlik ölçüsü gerektirirken, bölümlü kümeleme, küme sayısı ve ilk merkezler gibi daha güçlü varsayımlar gerektirir. Hiyerarşik kümeleme herhangi bir giriş parametresi gerektirmezken, bölümlü kümeleme algoritmaları çalışmaya başlamak için küme sayısını gerektirir. Hiyerarşik kümeleme, kümelerin çok daha anlamlı ve öznel bir şekilde bölünmesini sağlar, ancak bölümlü kümeleme, tam olarak k kümeyle sonuçlanır. Benzerlik ölçüsü buna göre tanımlanabildiği sürece, hiyerarşik kümeleme algoritmaları kategorik veriler için daha uygundur.