聚类作为一种无监督学习方法,在数据挖掘、机器学习等领域有着广泛的应用。评估聚类效果的好坏对于后续的数据分析和模型构建至关重要。本文将详细介绍五种常用的评分指标,帮助你精准评估聚类结果。

1. 聚类轮廓系数(Silhouette Coefficient)

聚类轮廓系数是衡量聚类效果的一种常用指标,它反映了样本点与其所在簇内其他样本点的相似度与与不同簇样本点的相似度之间的差异。值越大,表示聚类效果越好。

计算公式:

\[ \text{Silhouette Coefficient}(x) = \frac{b(x) - a(x)}{\max\{b(x), a(x)\}} \]

其中,\(a(x)\) 表示样本点 \(x\) 与其所在簇内其他样本点的平均距离,\(b(x)\) 表示样本点 \(x\) 与其最近簇的平均距离。

举例说明:

假设有四个样本点 \(x_1, x_2, x_3, x_4\),它们分别属于两个簇。计算每个样本点的聚类轮廓系数,然后取平均值作为聚类效果的评价指标。

def silhouette_coefficient(samples, labels):
    # 计算每个样本点的 a(x) 和 b(x)
    # ...
    # 计算 Silhouette Coefficient
    # ...
    return silhouette_coefficient

# 示例数据
samples = [[1, 2], [2, 2], [3, 2], [5, 5], [4, 5], [6, 5]]
labels = [0, 0, 0, 1, 1, 1]

# 计算聚类轮廓系数
silhouette_coeff = silhouette_coefficient(samples, labels)
print("聚类轮廓系数:", silhouette_coeff)

2. Calinski-Harabasz指数(Calinski-Harabasz Index)

Calinski-Harabasz指数是衡量聚类结果内部离散程度与总体离散程度的比值。值越大,表示聚类效果越好。

计算公式:

\[ \text{Calinski-Harabasz Index}(k) = \frac{\sum_{i=1}^{k}\sum_{x \in C_i}(n_i - 1)s_i^2}{\sum_{i=1}^{k}(n_i - 1)(k - 1)s_i^2} \]

其中,\(C_i\) 表示第 \(i\) 个簇,\(n_i\) 表示第 \(i\) 个簇的样本数量,\(s_i^2\) 表示第 \(i\) 个簇的样本方差。

举例说明:

假设有四个样本点 \(x_1, x_2, x_3, x_4\),它们分别属于两个簇。计算每个簇的样本方差,然后根据公式计算 Calinski-Harabasz 指数。

def calinski_harabasz_index(samples, labels):
    # 计算每个簇的样本方差
    # ...
    # 计算 Calinski-Harabasz Index
    # ...
    return calinski_harabasz_index

# 示例数据
samples = [[1, 2], [2, 2], [3, 2], [5, 5], [4, 5], [6, 5]]
labels = [0, 0, 0, 1, 1, 1]

# 计算 Calinski-Harabasz 指数
calinski_index = calinski_harabasz_index(samples, labels)
print("Calinski-Harabasz 指数:", calinski_index)

3. 调和平均值(Adjusted Rand Index)

调和平均值是一种衡量聚类结果相似度的指标,它考虑了聚类结果的重叠程度。值越接近 1,表示聚类结果越好。

计算公式:

\[ \text{Adjusted Rand Index}(A, B) = \frac{2|A \cap B|}{|A| + |B|} \]

其中,\(A\)\(B\) 分别表示两个聚类结果,\(A \cap B\) 表示两个聚类结果的重叠部分。

举例说明:

假设有两个聚类结果 \(A\)\(B\),其中 \(A\) 包含三个样本点,\(B\) 包含两个样本点,它们的重叠部分包含一个样本点。计算两个聚类结果的调和平均值。

def adjusted_rand_index(A, B):
    # 计算 A 和 B 的重叠部分
    # ...
    # 计算 Adjusted Rand Index
    # ...
    return adjusted_rand_index

# 示例数据
A = [[1, 2], [2, 2], [3, 2]]
B = [[5, 5], [4, 5]]

# 计算调和平均值
rand_index = adjusted_rand_index(A, B)
print("调和平均值:", rand_index)

4. 聚类一致性(Cluster Homogeneity)

聚类一致性衡量聚类结果与真实标签的一致性。值越接近 1,表示聚类结果越好。

计算公式:

\[ \text{Cluster Homogeneity} = \frac{\sum_{i=1}^{k}n_i(n_i - 1)}{2N(N - 1)} \]

其中,\(k\) 表示聚类数量,\(n_i\) 表示第 \(i\) 个簇的样本数量,\(N\) 表示样本总数。

举例说明:

假设有四个样本点 \(x_1, x_2, x_3, x_4\),它们分别属于两个簇,真实标签与聚类结果一致。计算聚类一致性。

def cluster_homogeneity(samples, labels):
    # 计算聚类一致性
    # ...
    return cluster_homogeneity

# 示例数据
samples = [[1, 2], [2, 2], [3, 2], [5, 5], [4, 5], [6, 5]]
labels = [0, 0, 0, 1, 1, 1]

# 计算聚类一致性
homogeneity = cluster_homogeneity(samples, labels)
print("聚类一致性:", homogeneity)

5. 聚类熵(Cluster Entropy)

聚类熵衡量聚类结果的随机程度。值越小,表示聚类结果越好。

计算公式:

\[ \text{Cluster Entropy} = -\sum_{i=1}^{k}p_i \log_2(p_i) \]

其中,\(p_i\) 表示第 \(i\) 个簇的样本比例。

举例说明:

假设有四个样本点 \(x_1, x_2, x_3, x_4\),它们分别属于两个簇。计算每个簇的样本比例,然后根据公式计算聚类熵。

def cluster_entropy(samples, labels):
    # 计算每个簇的样本比例
    # ...
    # 计算 Cluster Entropy
    # ...
    return cluster_entropy

# 示例数据
samples = [[1, 2], [2, 2], [3, 2], [5, 5], [4, 5], [6, 5]]
labels = [0, 0, 0, 1, 1, 1]

# 计算聚类熵
entropy = cluster_entropy(samples, labels)
print("聚类熵:", entropy)

综上所述,本文介绍了五种常用的聚类效果评分指标,包括聚类轮廓系数、Calinski-Harabasz指数、调和平均值、聚类一致性和聚类熵。在实际应用中,可以根据具体问题和数据特点选择合适的指标进行评估。