揭秘聚类效果：五大评分指标助你精准评估聚类质量

聚类分析是数据挖掘和机器学习中的重要技术，它通过将相似的数据点归为一组，帮助我们更好地理解数据结构和模式。然而，如何评估聚类效果是一个复杂的问题。本文将介绍五大评分指标，帮助你精准评估聚类质量。

1. 调整的兰德指数（Adjusted Rand Index, ARI）

调整的兰德指数（ARI）是一种衡量聚类结果好坏的指标，它考虑了聚类之间的重叠。ARI的值介于-1和1之间，值越接近1表示聚类结果越好。

代码示例

from sklearn.metrics import adjusted_rand_score

# 假设真实标签和预测标签如下
true_labels = [0, 1, 0, 1, 0, 1, 0, 1]
predicted_labels = [0, 0, 0, 1, 1, 1, 1, 1]

# 计算ARI
ari = adjusted_rand_score(true_labels, predicted_labels)
print("Adjusted Rand Index:", ari)

2. 调整的互信息（Adjusted Mutual Information, AMI）

调整的互信息（AMI）是一种衡量聚类结果好坏的指标，它考虑了聚类之间的重叠和标签之间的相关性。AMI的值介于-1和1之间，值越接近1表示聚类结果越好。

代码示例

from sklearn.metrics import adjusted_mutual_info_score

# 假设真实标签和预测标签如下
true_labels = [0, 1, 0, 1, 0, 1, 0, 1]
predicted_labels = [0, 0, 0, 1, 1, 1, 1, 1]

# 计算AMI
ami = adjusted_mutual_info_score(true_labels, predicted_labels)
print("Adjusted Mutual Information:", ami)

3. 聚类轮廓系数（Silhouette Coefficient）

聚类轮廓系数是一种衡量聚类结果好坏的指标，它考虑了聚类内聚度和聚类间分离度。轮廓系数的值介于-1和1之间，值越接近1表示聚类结果越好。

代码示例

from sklearn.metrics import silhouette_score

# 假设数据集和预测标签如下
data = [[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]]
predicted_labels = [0, 0, 0, 1, 1, 1]

# 计算轮廓系数
silhouette_avg = silhouette_score(data, predicted_labels)
print("Silhouette Coefficient:", silhouette_avg)

4.Davies-Bouldin指数（Davies-Bouldin Index）

Davies-Bouldin指数是一种衡量聚类结果好坏的指标，它考虑了聚类内聚度和聚类间分离度。指数值越小表示聚类结果越好。

代码示例

from sklearn.metrics import davies_bouldin_score

# 假设数据集和预测标签如下
data = [[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]]
predicted_labels = [0, 0, 0, 1, 1, 1]

# 计算Davies-Bouldin指数
db_index = davies_bouldin_score(data, predicted_labels)
print("Davies-Bouldin Index:", db_index)

5. Calinski-Harabasz指数（Calinski-Harabasz Index）

Calinski-Harabasz指数是一种衡量聚类结果好坏的指标，它考虑了聚类内聚度和聚类间分离度。指数值越大表示聚类结果越好。

代码示例

from sklearn.metrics import calinski_harabasz_score

# 假设数据集和预测标签如下
data = [[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]]
predicted_labels = [0, 0, 0, 1, 1, 1]

# 计算Calinski-Harabasz指数
ch_index = calinski_harabasz_score(data, predicted_labels)
print("Calinski-Harabasz Index:", ch_index)

通过以上五大评分指标，你可以更全面地评估聚类质量。在实际应用中，可以根据具体问题和数据特点选择合适的指标进行评估。