Ієрархічна проти часткової кластеризації

Кластеризація - це технологія машинного навчання для аналізу даних та поділу на групи подібних даних. Ці групи або набори подібних даних відомі як кластери. Аналіз кластерів розглядає алгоритми кластеризації, які можуть ідентифікувати кластери автоматично. Ієрархічний та частковий два такі класи алгоритмів кластеризації. Ієрархічні алгоритми кластеризації розбивають дані на ієрархію кластерів. Часткові алгоритми ділять набір даних на взаємно непересічні розділи.

Що таке ієрархічна кластеризація?

Ієрархічні алгоритми кластеризації повторюють цикл або об'єднання менших кластерів у більші, або розділення великих кластерів на менших. Так чи інакше, він створює ієрархію кластерів, яку називають дендограмою. Стратегія агломеративної кластеризації використовує підхід "знизу вгору" для об'єднання кластерів у більші, а стратегія поділу кластерів використовує підхід розбиття зверху вниз на менші. Зазвичай жадібний підхід використовується для вирішення того, які великі / менші кластери використовуються для злиття / поділу. Евклідова відстань, відстань Манхеттена та косинусна схожість - одні з найбільш часто використовуваних показників подібності для числових даних. Для нечислових даних використовуються такі показники, як відстань Хеммінга. Важливо зазначити, що фактичні спостереження (екземпляри) не потрібні для ієрархічної кластеризації, оскільки достатньо лише матриці відстаней. Дендограма - це візуальне зображення кластерів, яке дуже чітко відображає ієрархію. Користувач може отримати різні кластеризації залежно від рівня, на якому вирізана дендограма.

Що таке часткове кластеризація?

Алгоритми часткового кластеризації генерують різні розділи, а потім оцінюють їх за деяким критерієм. Вони також називаються негієрархічними, оскільки кожен екземпляр розміщується саме в одному з k взаємовиключних кластерів. Оскільки лише один набір кластерів є результатом типового алгоритму часткового кластеризації, користувачеві потрібно ввести потрібну кількість кластерів (зазвичай називається k). Одним з найбільш часто використовуваних алгоритмів часткового кластеризації є алгоритм кластеризації k-означає. Перед запуском користувач повинен надати кількість кластерів (k), і алгоритм спочатку ініціює центри (або центроїди) k розділів. Коротше кажучи, k-означає алгоритм кластеризації, то призначає членів на основі поточних центрів і переоцінює центри на основі поточних членів. Ці два етапи повторюються до тих пір, поки не будуть оптимізовані певна цільова функція подібності внутрішньої кластерності та цільова функція між кластерними відмінностями. Тому розумна ініціалізація центрів є дуже важливим фактором отримання якісних результатів за допомогою алгоритмів часткового кластеризації.

Яка різниця між ієрархічною та частковою кластеризацією?

Ієрархічна та часткова кластеризація мають ключові відмінності у часі роботи, припущеннях, вхідних параметрах та результативних кластерах. Зазвичай часткове кластеризація швидше, ніж ієрархічне кластеризація. Ієрархічна кластеризація вимагає лише міри подібності, тоді як часткове кластеризація вимагає більш сильних припущень, таких як кількість кластерів та початкові центри. Ієрархічна кластеризація не вимагає жодних вхідних параметрів, тоді як алгоритми часткового кластеризації потребують кількості кластерів для запуску. Ієрархічна кластеризація повертає набагато більш значимий та суб'єктивний поділ кластерів, але часткове кластеризація призводить до точно k кластерів. Ієрархічні алгоритми кластеризації більше підходять для категоричних даних, доки міру подібності можна визначити відповідно.