基准测试
图分析基准测试
此基准测试旨在评估 GraphFrames 算法的性能,而非 Apache Spark 本身。因此,所有图数据均从磁盘读取并以序列化格式持久化在内存中。最终结果中仅测量 GraphFrames 算法的运行时间,读取 CSV 文件、序列化及持久化数据的时间不计入测量。
配置
- Serializer:
org.apache.spark.serializer.KryoSerializer - GraphFrame 检查点:
localCheckpoints - Spark 版本: 4.0.0
- Scala 版本: 2.13.16
- 虚拟机:适用于开源项目的标准 GitHub Actions 运行器。
图:维基百科讨论
- 顶点: 2M
- 边: 5M
- 尺寸类别: XS
- 源文件格式:
CSV类格式
| 算法 | 测量指标 | Time (s) |
|---|---|---|
| 最短路径 Graphframes | 3 | 74.8877 |
| 最短路径 GraphX | 3 | 15.8809 |
| 连通组件 Graphframes | 3 | 35.3588 |
| 连通组件 GraphX | 3 | 15.4621 |
| 标签传播 GraphFrames | 3 | 94.4113 |
| 标签传播 GraphX | 3 | 82.0218 |