大规模计算
处理大规模数据集是时间序列预测中的一个常见挑战。例如,在处理零售数据时,您可能需要预测数千个产品在数百家商店的销售情况。同样,在处理电力消耗数据时,您可能需要预测各个地区数千个家庭的用电量。
Nixtla 的 TimeGPT 使您能够使用多个分布式计算框架高效管理大数据集。TimeGPT 目前通过 Fugue 支持 Spark、Dask 和 Ray。
在本笔记本中,我们将解释如何使用 TimeGPT 利用这些框架。
大纲:
开始使用
要在任何支持的分布式计算框架中使用 TimeGPT,您首先需要一个 API 密钥,就像在不使用任何分布式计算时一样。
在 注册 后,您将收到一封电子邮件,要求您确认注册。确认后,您将获得访问仪表板的权限。在那里,在 API Keys 下,您将找到您的 API 密钥。接下来,您需要将您的 API 密钥集成到 Nixtla SDK 的开发工作流程中。有关如何做到这一点的指导,请参阅 设置您的认证密钥教程。
大规模预测
使用 TimeGPT 和任何支持的分布式计算框架非常简单,使用方式与非分布式情况几乎相同。
- 实例化
NixtlaClient类。 - 将您的数据加载为
pandasDataFrame。 - 初始化分布式计算框架。
- 使用
NixtlaClient类的任何方法。 - 如果必要,停止分布式计算框架。
这些是您需要遵循的使用 TimeGPT 和任何支持的分布式计算框架的一般步骤。有关详细说明和完整示例,请参阅上面链接的特定框架指南。
Important
这些框架中的并行化是沿着数据集中各个时间序列进行的。因此,确保您的数据集包含多个时间序列,每个时间序列都有一个唯一的标识符是至关重要的。
重要考虑事项
何时使用分布式计算框架
如果您的数据集:
- 包含数百万个观察值的多个时间序列。
- 太大以至于无法放入单台机器的内存中。
- 在单台机器上处理会过于缓慢。
选择合适的框架
在选择分布式计算框架时,请考虑您现有的基础设施和团队的技能水平。尽管 TimeGPT 可以与任何支持的框架一起使用,且只需最小的代码更改,但选择合适的框架应与您的具体需求和资源相一致。这将确保您在高效处理大数据集的同时,充分利用 TimeGPT 的全部潜力。
Give us a ⭐ on Github