大规模计算

处理大规模数据集是时间序列预测中的一个常见挑战。例如,在处理零售数据时,您可能需要预测数千个产品在数百家商店的销售情况。同样,在处理电力消耗数据时,您可能需要预测各个地区数千个家庭的用电量。

Nixtla 的 TimeGPT 使您能够使用多个分布式计算框架高效管理大数据集。TimeGPT 目前通过 Fugue 支持 SparkDaskRay

在本笔记本中,我们将解释如何使用 TimeGPT 利用这些框架。

大纲:

  1. 开始使用

  2. 规模化预测

  3. 重要考虑事项

开始使用

要在任何支持的分布式计算框架中使用 TimeGPT,您首先需要一个 API 密钥,就像在不使用任何分布式计算时一样。

注册 后,您将收到一封电子邮件,要求您确认注册。确认后,您将获得访问仪表板的权限。在那里,在 API Keys 下,您将找到您的 API 密钥。接下来,您需要将您的 API 密钥集成到 Nixtla SDK 的开发工作流程中。有关如何做到这一点的指导,请参阅 设置您的认证密钥教程

大规模预测

使用 TimeGPT 和任何支持的分布式计算框架非常简单,使用方式与非分布式情况几乎相同。

  1. 实例化 NixtlaClient 类。
  2. 将您的数据加载为 pandas DataFrame。
  3. 初始化分布式计算框架。
  4. 使用 NixtlaClient 类的任何方法。
  5. 如果必要,停止分布式计算框架。

这些是您需要遵循的使用 TimeGPT 和任何支持的分布式计算框架的一般步骤。有关详细说明和完整示例,请参阅上面链接的特定框架指南。

Important

这些框架中的并行化是沿着数据集中各个时间序列进行的。因此,确保您的数据集包含多个时间序列,每个时间序列都有一个唯一的标识符是至关重要的。

重要考虑事项

何时使用分布式计算框架

如果您的数据集:

  • 包含数百万个观察值的多个时间序列。
  • 太大以至于无法放入单台机器的内存中。
  • 在单台机器上处理会过于缓慢。

选择合适的框架

在选择分布式计算框架时,请考虑您现有的基础设施和团队的技能水平。尽管 TimeGPT 可以与任何支持的框架一起使用,且只需最小的代码更改,但选择合适的框架应与您的具体需求和资源相一致。这将确保您在高效处理大数据集的同时,充分利用 TimeGPT 的全部潜力。

Give us a ⭐ on Github