ray.rllib.algorithms.algorithm.Algorithm.train_buffered# Algorithm.train_buffered(buffer_time_s: float, max_buffer_length: int = 1000)# 运行多个训练迭代。 内部调用 train() 。收集并合并多个结果。此函数将反复运行 self.train() ,直到满足以下任一条件:1) 达到最大缓冲长度,2) 达到最大缓冲时间,或 3) 创建了检查点。即使达到最大时间,它也会一直阻塞,直到至少接收到一个结果。 参数: buffer_time_s – 最大缓冲时间。在这段时间过去后收到的下一个结果将返回整个缓冲区。 max_buffer_length – 缓冲的最大结果数量。