PyGraphistry中的CPU和GPU加速#

为什么PyGraphistry速度快#

PyGraphistry 专为速度而设计。通过专注于向量化处理,它在标准CPU上优于大多数图库。当您利用GPU和AI模型时,PyGraphistry 可以变得快100倍以上,从而实现大规模的实时分析和机器学习。我们经常在包含数百万和数十亿行的数据集上使用它。

正如Apache Spark使用内存处理来用更快更小的多核服务器取代Hadoop服务器机架一样,PyGraphistry生态系统使用GPU加速来进一步提高速度并降低成本。

灵活的GPU使用:客户端和服务器#

严格可选,PyGraphistry 让您能够在工作流程中最需要的地方利用 GPU。对于较小的数据集,您可以在本地 GPU 上运行 PyGraphistry。图形加载、塑形、计算、查询、机器学习、人工智能和可视化任务都变得更加交互式和即时,使得 PyGraphistry 非常适合在 Jupyter 笔记本和仪表板中进行探索。

对于较大的数据集和团队项目,您可以将PyGraphistry任务(如GFQL查询可视化ETL)甚至完整的GPU Python脚本卸载到共享的Graphistry GPU服务器上。这种设置可以处理企业级的工作负载,帮助在Web应用程序、仪表板和AI管道中提供一致的性能。

PyGraphistry 在向量处理和 GPU 上的加速应用#

PyGraphistry 在整个数据工作流程中使用向量处理和 GPU 加速。

在数据处理中,它与Apache Arrow集成,以无缝地在pandas之间转换,用于数据集在CPU上的算法和硬件加速,以及cuDF(通过NVIDIA RAPIDS)用于大型GPU加速的工作负载,确保您的数据管道在任何规模下都保持高效。Graphistry通常在具有12-80 GB单GPU内存的GPU上使用,我们越来越多地与尝试使用多GPU节点(128-640 GB GPU内存)及其集群的团队合作。

对于图查询,GFQL利用GPU加速对大规模图数据集的查询,即使在遍历步骤涉及数亿行数据时,也能在单个GPU上几秒钟内提供结果。

在可视化中,GPU使PyGraphistry能够实时渲染大型复杂图形。无论您是在调查网络安全威胁、监控供应链还是分析点击流,您都可以在本地或通过共享服务器获得任何规模的响应式视觉效果。

对于人工智能和机器学习,PyGraphistry[AI] 使用 GPU 来加速模型训练和推理,用于诸如 UMAPGNNs 等任务,从而在安全和商业分析等领域从大型图数据集中快速获取洞察。当处理实时数据和数十亿行数据时,GPU 训练和 GPU 推理的结合显著提高了速度。

轻松部署到任何地方#

Graphistry 生态系统与您现有的基础设施相契合。

您可以在任何现代云平台(AWS, GCP, Azure)上部署Graphistry GPU服务器,并且可以使用Docker ComposeKubernetes在本地部署。PyGraphistry适用于任何与RAPIDS兼容的NVIDIA GPU。

如果你没有GPU,没问题。PyGraphistry只需pip install graphistry即可快速安装,通过类似于ClickHouseApache Spark的向量化列处理概念,为CPU硬件优化性能。你也可以将繁重的任务卸载到远程的Graphistry共享GPU,包括Graphistry Hub可视化服务器。

可信安全与合规#

许多拥有敏感环境的顶级组织——包括全球银行和隔离的政府系统——都信任PyGraphistry。定期的渗透测试等常规安全实践确保系统满足严格的安全要求,使其对最严格的团队也是安全的。

下一步#

开始使用 PyGraphistry: