Hiyerarşik ve Bölümsel Kümeleme

Kümeleme, verileri analiz etmek ve benzer veri gruplarına bölmek için kullanılan bir makine öğrenme tekniğidir. Bu gruplara veya benzer veri gruplarına kümeler denir. Küme analizi, kümeleri otomatik olarak tanımlayabilen kümeleme algoritmalarına bakar. Hiyerarşik ve Bölümleme, kümeleme algoritmalarının bu tür iki sınıfıdır. Hiyerarşik kümeleme algoritmaları, verileri bir küme hiyerarşisine böler. Paritional algoritmaları veri setini karşılıklı ayrık bölümlere ayırır.

Hiyerarşik Kümeleme nedir?

Hiyerarşik kümeleme algoritmaları, daha küçük kümeleri daha büyük kümelerle birleştirme veya daha büyük kümeleri küçük kümelere bölme döngüsünü tekrarlar. Her iki durumda da, dendogram adı verilen bir küme hiyerarşisi üretir. Aglomerasyon kümeleme stratejisi, kümelenmeleri daha büyük olanlarla birleştirmek için aşağıdan yukarıya yaklaşımını kullanırken, bölücü kümeleme stratejisi daha küçük olanlara ayırmak için yukarıdan aşağıya yaklaşımını kullanır. Tipik olarak, açgözlü yaklaşım, birleştirmek / bölmek için hangi büyük / küçük kümelerin kullanılacağına karar vermede kullanılır. Öklid mesafesi, Manhattan mesafesi ve kosinüs benzerliği, sayısal veriler için benzerliğin en sık kullanılan metriklerinden bazılarıdır. Sayısal olmayan veriler için Hamming mesafesi gibi metrikler kullanılır. Hiyerarşik kümeleme için gerçek gözlemlere (örneklere) gerek olmadığına dikkat etmek önemlidir, çünkü sadece mesafeler matrisi yeterlidir. Dendogram, hiyerarşiyi çok net bir şekilde gösteren kümelerin görsel bir temsilidir. Kullanıcı dendogramın kesildiği düzeye bağlı olarak farklı kümeleme elde edebilir.

Bölünmüş Kümeleme nedir?

Bölümleme kümeleme algoritmaları çeşitli bölümler oluşturur ve bunları bazı ölçütlere göre değerlendirir. Ayrıca, her bir örnek birbirini dışlayan kümelerin tam olarak birine yerleştirildiği için bunlar hiyerarşik olmayan olarak da adlandırılır. Tipik bir bölümleme kümeleme algoritmasının çıktısı yalnızca bir küme kümesi olduğundan, kullanıcının istenen sayıda kümeyi (genellikle k olarak adlandırılır) girmesi gerekir. En yaygın kullanılan bölümleme kümeleme algoritmalarından biri k-ortalama kümeleme algoritmasıdır. Kullanıcının başlamadan önce kümelerin sayısını (k) sağlaması gerekir ve algoritma önce k bölümlerinin merkezlerini (veya centroidlerini) başlatır. Özetle, k-anlamına gelen kümeleme algoritması daha sonra mevcut merkezlere göre üyeler atar ve mevcut üyelere göre merkezleri yeniden tahmin eder. Bu iki adım belirli bir küme içi benzerlik objektif fonksiyonu ve kümeler arası benzerlik objektif fonksiyonu optimize edilene kadar tekrarlanır. Bu nedenle, merkezlerin mantıklı bir şekilde başlatılması, bölümleme kümeleme algoritmalarından kalite sonuçları elde etmede çok önemli bir faktördür.

Hiyerarşik ve Bölümsel Kümeleme arasındaki fark nedir?

Hiyerarşik ve Bölümsel Kümeleme, çalışma süresi, varsayımlar, giriş parametreleri ve sonuçtaki kümeler arasında önemli farklılıklara sahiptir. Genellikle, bölümsel kümeleme hiyerarşik kümelemeden daha hızlıdır. Hiyerarşik kümeleme yalnızca benzerlik ölçüsü gerektirirken, bölümleme kümeleme, küme sayısı ve başlangıç ​​merkezleri gibi daha güçlü varsayımlar gerektirir. Hiyerarşik kümeleme herhangi bir girdi parametresi gerektirmezken, bölümleme kümeleme algoritmaları çalışmaya başlamak için küme sayısını gerektirir. Hiyerarşik kümeleme, kümelerin çok daha anlamlı ve sübjektif bir bölümünü döndürür, ancak bölümlü kümeleme tam olarak k kümeleriyle sonuçlanır. Hiyerarşik kümeleme algoritmaları, benzerlik ölçüsü buna göre tanımlanabildiği sürece kategorik veriler için daha uygundur.