Kümeleme ve sınıflandırma arasındaki temel fark, kümelemenin benzer örnekleri özelliklere göre gruplayan denetimsiz bir öğrenme tekniği olması, sınıflandırmanın ise özelliklere göre örneklere önceden tanımlanmış etiketler atayan denetimli bir öğrenme tekniği olmasıdır.
Kümeleme ve sınıflandırma benzer süreçler gibi görünse de anlamlarına göre aralarında bir fark vardır. Veri madenciliği dünyasında kümeleme ve sınıflandırma iki tür öğrenme yöntemidir. Bu yöntemlerin her ikisi de nesneleri bir veya daha fazla özelliğe göre gruplara ayırır.
Kümeleme Nedir?
Kümeleme, benzer özelliklere sahip nesnelerin bir araya geleceği ve farklı özelliklere sahip nesnelerin ayrılacağı şekilde nesneleri gruplandırma yöntemidir. Makine öğrenimi ve veri madenciliği için istatistiksel veri analizi için yaygın bir tekniktir. Keşifsel veri analizi ve genelleme de kümelemeyi kullanan bir alandır.
Şekil 01: Kümeleme
Kümeleme, denetimsiz veri madenciliğine aittir. Tek bir özel algoritma değildir, ancak bir görevi çözmek için genel bir yöntemdir. Bu nedenle çeşitli algoritmalar kullanarak kümeleme yapmak mümkündür. Uygun küme algoritması ve parametre ayarları, bireysel veri kümelerine bağlıdır. Bu otomatik bir görev değil, yinelemeli bir keşif sürecidir. Bu nedenle, sonuç istenen özellikleri elde edene kadar veri işleme ve parametre modellemeyi değiştirmek gerekir. K-ortalama kümeleme ve Hiyerarşik kümeleme, veri madenciliğinde yaygın olarak kullanılan iki kümeleme algoritmasıdır.
Sınıflandırma Nedir?
Sınıflandırma, nesneleri tanımak, ayırt etmek ve anlamak için bir dizi eğitim verisini kullanan bir sınıflandırma işlemidir. Sınıflandırma, bir eğitim setinin ve doğru tanımlanmış gözlemlerin mevcut olduğu denetimli bir öğrenme tekniğidir.
Şekil 02: Sınıflandırma
Sınıflandırmayı uygulayan algoritma sınıflandırıcı, gözlemler ise örneklerdir. K-En Yakın Komşu algoritması ve karar ağacı algoritmaları, veri madenciliğinde en ünlü sınıflandırma algoritmalarıdır.
Kümeleme ve Sınıflandırma Arasındaki Fark Nedir?
Kümeleme denetimsiz öğrenmedir, Sınıflandırma ise denetimli bir öğrenme tekniğidir. Benzer örnekleri özelliklere göre gruplandırırken, sınıflandırma özelliklere göre örneklere önceden tanımlanmış etiketler atar. Kümeleme, benzer özelliklere sahip örnekleri gruplamak için veri kümesini alt kümelere böler. Etiketli veri veya eğitim seti kullanmaz. Öte yandan, yeni verileri eğitim setinin gözlemlerine göre kategorize edin. Eğitim seti etiketlidir.
Kümelemenin amacı, aralarında herhangi bir ilişki olup olmadığını bulmak için bir dizi nesneyi gruplandırmaktır, oysa sınıflandırma, önceden tanımlanmış sınıflar kümesinden yeni bir nesnenin hangi sınıfa ait olduğunu bulmayı amaçlar.
Özet – Kümeleme ve Sınıflandırma
Kümeleme ve sınıflandırma benzer görünebilir, çünkü her iki veri madenciliği algoritması da veri setini alt kümelere böler, ancak bunlar veri madenciliğinde bir ham veri koleksiyonundan güvenilir bilgi elde etmek için iki farklı öğrenme tekniğidir. Kümeleme ve sınıflandırma arasındaki fark, kümelemenin benzer örnekleri özelliklere göre gruplayan denetimsiz bir öğrenme tekniği olması, sınıflandırmanın ise özelliklere göre örneklere önceden tanımlanmış etiketler atayan denetimli bir öğrenme tekniği olmasıdır.
Görüntü Nezaket:
1.”Cluster-2″, Cluster-2.gif: hellisp türev çalışması: (Public Domain) Wikimedia Commons aracılığıyla 2. “Manyetizma”, John Aplessed – Kendi çalışmanız. (Kamusal Alan) Wikimedia Commons aracılığıyla