层次聚类（Hierarchical Clustering）是聚类算法的一族算法的总称，它通过连续合并或拆分聚类来构建嵌套聚类。这种聚类的层次结构就像树一样，树的根是收集所有样本的唯一簇，叶子是只有一个样本的簇。

在这里插入图片描述

上图中，树根聚类就是abcdef，叶子聚类就是每一个字母的节点。

在scikit-learn中，层次聚类可以通过AgglomerativeClustering对象来实现。这个算法使用自下而上的方法执行层次聚类：每次都从其自己的聚类开始，然后将聚类连续合并在一起。

使用鸢尾花数据集，只需要几行代码就通过AgglomerativeClustering完成层次聚类。

先导入NumPy，鸢尾花iris数据集，以及AgglomerativeClustering。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.cluster import AgglomerativeClustering

下面就准备数据并进行聚类。

iris = load_iris()
X = iris.data # 准备聚类的数据（鸢尾花的花瓣和花萼长度特征）

# 创建AgglomerativeClustering对象
model = AgglomerativeClustering(distance_threshold=0, 
                                linkage="ward"， 
                                n_clusters=None)
# 用AgglomerativeClustering进行层次聚类
model = model.fit(X)

在上面的model创建过程中，因为指定了distance_threshold（簇间距的距离阈值，超过该阈值，簇将不会被合并），所以，算法会自动确定聚成几个类。一旦指定了distance_threshold，n_clusters必须为None。如果显式的指定n_clusters也就是簇的个数，那么就不一定要设定簇间距。

在算法中指定的linkage（链接标准）参数决定了聚类过程中的合并策略。具体说明如下:

Ward 最小化所有聚类的平方差之和。这是一种方差最小化方法，有点类似于 k-means的目标函数，但使用凝聚层次方法处理。
Maximum或complete linkage 最小化聚类对之间的最大距离。
Average linkage 最小化聚类对的距离平均值。
Single linkage 最小化聚类对的最近距离。

在使用AgglomerativeClustering时，如果样本量巨大，那么就需要通过链接标准进行约束，否则计算量会非常巨大。因为它会在每一步都考虑所有可能的合并。

下面我们继续通过树状图（dendrogram）来完成上面的层次聚类的可视化。

我们这里定义一个能创建树状图的函数。树状图是显示对象之间的层次关系的图表。它最常被创建为层次聚类的输出。

from scipy.cluster.hierarchy import dendrogram
def plot_dendrogram(model, **kwargs):
    # 创建链接矩阵，然后绘制树状图
    
    # 在每个节点下对样本计数
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # 叶节点
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack(
        [model.children_, model.distances_, counts]
    ).astype(float)

    # 绘制树状图
    dendrogram(linkage_matrix, **kwargs)

最后，我们通过matplotlib来显示该图。

from matplotlib import pyplot as plt
plt.rcParams["font.family"]=['SimHei'] # 用来设定字体样式
plt.rcParams['font.sans-serif']=['SimHei'] # 用来设定无衬线字体样式
plt.title("层次聚类树状图")
# 绘制树状图的前三个级别
plot_dendrogram(model, truncate_mode="level", p=3)
plt.xlabel("簇中的数据个数")
plt.show()