Zachary空手道俱乐部数据集的‘两面性’：在NetworkX看社群分裂，在PyG里做节点分类-迪斯科星球

Zachary空手道俱乐部数据集的‘两面性’：在NetworkX看社群分裂，在PyG里做节点分类

在数据科学和图机器学习领域，Zachary的空手道俱乐部数据集堪称经典。这个看似简单的社交网络图谱，却蕴含着丰富的分析可能性。有趣的是，同一个数据集在不同工具和框架中呈现出截然不同的面貌——就像一枚硬币的两面，一面是传统的社群结构分析，另一面则是现代的节点分类预测。本文将带您深入探索这个经典数据集的双重身份，揭示如何用NetworkX进行描述性社群分析，又如何用PyG构建预测性节点分类模型。

1. 数据集背后的故事与价值

1977年，社会学家Wayne Zachary发表了一项关于小型群体冲突的研究。他跟踪观察了一个大学空手道俱乐部的社交网络，记录了34名成员之间的互动关系。当俱乐部因管理矛盾而分裂时，Zachary发现仅凭成员间的社交关系就能准确预测他们最终会加入哪个阵营。

这个数据集之所以经典，不仅因为其真实性和完整性，更因为它完美展示了社交网络的两个关键特性：

社群结构：网络自然形成两个主要群体
预测潜力：网络特征可以预测节点属性

在NetworkX中，这个数据集保留了最原始的形态——只有节点、边和简单的"club"属性（Mr. Hi或Officer）。而在PyG版本中，数据集被赋予了新的维度：

特性	NetworkX版本	PyG版本
节点数	34	34
边数	78(无向)	156(有向表示)
节点特征	无	34维独热编码
节点标签	二分类(club)	四分类(modularity)
主要用途	社群分析	节点分类

这种差异不是偶然的，它反映了图数据分析方法的演进——从描述性分析到预测性建模的转变。

2. NetworkX中的社群分裂可视化

让我们先从传统视角出发，看看如何在NetworkX中分析这个数据集的社群结构。以下是一个完整的分析流程：

import networkx as nx import matplotlib.pyplot as plt # 加载数据 G = nx.karate_club_graph() # 设置可视化布局 pos = nx.spring_layout(G, seed=42) # 按club属性分组 mr_hi = [n for n in G.nodes if G.nodes[n]['club'] == 'Mr. Hi'] officer = [n for n in G.nodes if G.nodes[n]['club'] == 'Officer'] # 绘制网络图 plt.figure(figsize=(10, 8)) nx.draw_networkx_nodes(G, pos, nodelist=mr_hi, node_color='lightblue', label='Mr. Hi Group') nx.draw_networkx_nodes(G, pos, nodelist=officer, node_color='lightcoral', label='Officer Group') nx.draw_networkx_edges(G, pos, alpha=0.5) nx.draw_networkx_labels(G, pos) plt.legend() plt.title("Zachary's Karate Club - Community Division") plt.show()

这段代码会产生一个清晰的社群分裂可视化，直观展示俱乐部如何分裂为两个阵营。但社群分析不止于此，我们还可以计算一些关键指标：

模块度(Modularity): 衡量社群划分质量的指标
中心性(Centrality): 识别网络中的关键节点
聚类系数(Clustering Coefficient): 评估节点聚集程度

提示：在实际分析中，即使没有先验的club属性，仅通过连接结构，社群检测算法(如Louvain方法)也能准确识别出这两个社群。

3. PyG中的节点分类任务

现在，让我们转向现代图神经网络的世界，看看PyG如何重新诠释这个经典数据集。PyG版本的关键创新在于：

将原始的二分类问题扩展为四分类问题
添加了节点特征(34维独热编码)
提供了标准的训练/测试划分

以下是一个简单的GCN节点分类实现：

import torch import torch.nn.functional as F from torch_geometric.datasets import KarateClub from torch_geometric.nn import GCNConv # 加载数据 dataset = KarateClub() data = dataset[0] # 定义简单GCN模型 class GCN(torch.nn.Module): def __init__(self): super().__init__() self.conv1 = GCNConv(dataset.num_features, 16) self.conv2 = GCNConv(16, dataset.num_classes) def forward(self, data): x, edge_index = data.x, data.edge_index x = self.conv1(x, edge_index) x = F.relu(x) x = F.dropout(x, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1) # 训练过程 model = GCN() optimizer = torch.optim.Adam(model.parameters(), lr=0.01) for epoch in range(200): model.train() optimizer.zero_grad() out = model(data) loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask]) loss.backward() optimizer.step()

这个简单模型就能达到相当不错的分类准确率。PyG版本的数据转换体现了现代图机器学习的典型思路：

将节点表示为特征向量
利用图结构信息进行消息传递
结合监督信号进行端到端训练

4. 两种视角的对比与结合

通过前面的分析，我们已经看到了同一个数据集在不同框架下的两种截然不同的应用方式。现在让我们系统性地对比这两种视角：

维度	NetworkX视角	PyG视角
分析目标	理解社群结构	预测节点标签
方法论	图论算法	图神经网络
数据使用	仅结构信息	结构+特征
结果解释	高度可解释	黑箱倾向
计算复杂度	低	中高
适用场景	探索性分析	预测建模

有趣的是，这两种方法可以形成互补关系。在实际项目中，一个常见的工作流是：

先用NetworkX进行探索性分析，理解图的基本特性
然后使用PyG构建预测模型
最后再回到NetworkX可视化模型预测结果

例如，我们可以比较原始社群分裂与GCN预测结果的一致性：

# 获取GCN预测结果 model.eval() pred = model(data).argmax(dim=1) # 可视化比较 plt.figure(figsize=(12, 5)) # 原始分裂 plt.subplot(121) nx.draw_networkx_nodes(G, pos, nodelist=mr_hi, node_color='lightblue') nx.draw_networkx_nodes(G, pos, nodelist=officer, node_color='lightcoral') nx.draw_networkx_edges(G, pos) plt.title("Original Split") # GCN预测 plt.subplot(122) for i in range(4): nodes = [n for n in G.nodes if pred[n] == i] nx.draw_networkx_nodes(G, pos, nodelist=nodes, node_color=f'C{i}', label=f'Class {i}') nx.draw_networkx_edges(G, pos) plt.title("GCN Prediction") plt.legend() plt.show()

这种对比往往能揭示有趣的洞见，比如模型是否捕捉到了真实的社群结构，或者发现了新的节点分组模式。

企业官网建设流程全解析