层次聚类(Hierarchical Clustering)——BIRCH算法详解及举例

1 BIRCH概述

BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）的主要动机是两个方面，一是处理大数据集，二是对异常值的鲁棒性。该算法中引入两个概念：聚类特征（Clustering　Feature，CF）和聚类特征树（CF-tree），通过这两个概念对簇进行概括，利用各个簇之间的距离，采用层次方法的平衡迭代对数据集进行规约和聚类。

2 聚类特征（CF）

CF是BIRCH增量聚类算法的核心，使用CF概括描述各簇的信息，设某簇中有N个D维数据点 $\{\overrightarrow x_n\}(n=1,2,…,N)$ ,则该簇的聚类特征定义为三元组：
$C F = (N, L S, S S)$
其中N是簇中点的数目，矢量LS是个各点的线性求和即 $\sum_{n=1}^N\overrightarrow x_n=(\sum_{n=1}^Nx_{n1},\sum_{n=1}^Nx_{n2},…,\sum_{n=1}^Nx_{nD})$
标量SS是各数据点的平方和即 $\sum_{n=1}^N\overrightarrow x_n^2=\sum_{n=1}^N\overrightarrow x_n^T\overrightarrow x_n=\sum_{n=1}^N\sum_{i=1}^D x_{ni}^2$

举个例子
假设簇一有三个数据点(2, 5)、(3, 2)和(4, 3)，根据定义，簇一的聚类特征是
$CF1=(3, (2+3+4，5+2+3), (2^2+5^2)+(3^2+2^2)+(4^2+3^2)) =(3, (9，10)，67)$

CF具有可加性：CF1=（n1,LS1,SS1），CF2=（n2,LS2,SS2），则CF1+CF2=（n1+n2, LS1+LS2, SS1+SS2）表示将两个不相交的簇合并成一个大簇的聚类特征。

举个例子
设簇C2的CF2=（3，（35,36），857），那么，由簇C1和簇C2合并而来的簇C3的聚类特征CF3计算如下：
CF3=(3+3, (9+35, 10+36), (67+857))=(6, (44, 46), 924)

聚类特征本质上是给定簇的统计汇总，可以有效地对数据进行压缩，而且基于聚类特征可以很容易地推导出簇的许多统计量和距离度量。
假设给定簇中有N个D维数据点，可用以下公式定义簇的质心 $X_0$ ，半径R和直径D
簇质心： $\overrightarrow x_0=\frac{\sum_{i=1}^N\overrightarrow X_i}{N}=\frac{LS}{N}$
簇半径： $R=\sqrt{\frac{\sum_{i=1}^N(\overrightarrow X_i-\overrightarrow X_0)^2}{N}}=\sqrt{\frac{NSS-LS^2}{N^2}}$
簇直径： $D=\sqrt{\frac{\sum_{i=1}^N\sum_{j=1}^N(\overrightarrow X_i-\overrightarrow X_j)^2}{N(N-1)}}=\sqrt{\frac{2NSS-2LS^2}{N(N-1)}}$
其中R是成员对象到质心的平均距离，D是簇中两两数据点的平均距离，这两个统计量都反映了簇内紧实度。
不同簇间的距离度量通常用曼哈顿距离，公式如下：
$D_0=\sqrt{\frac{\sum_{i=1}^{N_1}\sum_{j=N_1+1}^{N_1+N_2}(\overrightarrow X_i-\overrightarrow X_j)^2}{N_1N_2}}=\sqrt{\frac{SS_1}{N_1}+\frac{SS_2}{N_2}-\frac{2LS_1LS_2}{N_1N_2}}$

3 聚类特征树（CF-tree）

CF树存储了层次聚类的簇的特征，有三个参数：枝平衡因子 $\beta$ 、叶平衡因子 $\lambda$ 和空间阈值 $\tau$ 。CF树由根节点、枝节点和叶节点构成，非叶节点中包含不多于 $\beta$ 个形如 $CF_i,child_i]$ 的条目（entry）。其中 $CF_i$ 表示该节点上子簇的聚类特征信息，指针 $child_i$ 指向该节点的子节点。叶节点中包含不多于 $\lambda$ 个形如 $CF_i]$ 的条目，此外每个叶节点中都包含指针prev指向前一个叶节点和指针next指向后一个叶节点。空间阈值 $\tau$ 用于限制叶节点的子簇的大小，即所有叶节点的各条目对应子簇的直径D（或半径R）不得大于 $\tau$ ，行如下图