Skip to content

交叉验证

expanding_window_split(test_size, n_splits=5, step_size=1, eager=False)

使用扩展窗口分割器返回训练/测试划分。

将时间序列重复分割为一个不断增长的训练集和一个固定大小的测试集。
例如,给定 test_size = 3n_splits = 5step_size = 1,训练 o 的和测试 x 的折叠可以可视化为:

| o o o x x x - - - - |
| o o o o x x x - - - |
| o o o o o x x x - - |
| o o o o o o x x x - |
| o o o o o o o x x x |

参数:

名称 类型 描述 默认
test_size int

每个分割的测试样本数量。

必需
n_splits int

分割的数量。

5
step_size int

窗口之间的步长大小。

1
eager bool

如果为True,返回DataFrames。否则,返回LazyFrames。

False

返回:

名称 类型 描述
splitter Callable[LazyFrame, Mapping[int, Tuple[LazyFrame, LazyFrame]]]

该函数接受一个面板 LazyFrame 和 (train, test) 拆分的字典,其中 键表示拆分编号 (1,2,...,n_splits),值是 LazyFrames 的元组。

sliding_window_split(test_size, n_splits=5, step_size=1, window_size=10, eager=False)

使用滑动窗口分割器返回训练/测试分割。 将时间序列反复分割为固定长度的训练集和测试集。 例如,给定 test_size = 3n_splits = 5step_size = 1window_size=5 训练 o 和测试 x 的折叠可以被可视化为:

| o o o o o x x x - - - - |
| - o o o o o x x x - - - |
| - - o o o o o x x x - - |
| - - - o o o o o x x x - |
| - - - - o o o o o x x x |

参数:

名称 类型 描述 默认
test_size int

每个分割的测试样本数量。

必需
n_splits int

分割的数量。

5
step_size int

窗口之间的步长。

1
window_size int

训练的窗口大小。

10
eager bool

如果为 True 则返回 DataFrames。否则,返回 LazyFrames。

False

返回:

名称 类型 描述
splitter Callable[LazyFrame, Mapping[int, Tuple[LazyFrame, LazyFrame]]]

该函数接受一个面板 LazyFrame 和 (train, test) 拆分的字典,其中键表示拆分编号 (1,2,...,n_splits),值是 LazyFrames 的元组。

train_test_split(test_size=0.25, eager=False)

根据 test_size 返回按时间排序的训练集和测试集。

参数:

名称 类型 描述 默认
test_size int | float

测试样本的数量或比例。

0.25
eager bool

如果为 True,则立即评估并返回训练-测试 DataFrame 的元组。

False

返回:

名称 类型 描述
splitter Union[EagerSplitter, LazySplitter]

该函数接受一个面板 DataFrame,或 LazyFrame,并返回: * 如果 eager=False,返回一个训练/测试 LazyFrames 的元组。 * 如果 eager=True,返回一个训练/测试 DataFrames 的元组。