ray.rllib.algorithms.algorithm.Algorithm.train_buffered#

Algorithm.train_buffered(buffer_time_s: float, max_buffer_length: int = 1000)#

运行多个训练迭代。

内部调用 train() 。收集并合并多个结果。此函数将反复运行 self.train() ，直到满足以下任一条件：1) 达到最大缓冲长度，2) 达到最大缓冲时间，或 3) 创建了检查点。即使达到最大时间，它也会一直阻塞，直到至少接收到一个结果。