交叉验证
expanding_window_split(test_size, n_splits=5, step_size=1, eager=False)
使用扩展窗口分割器返回训练/测试划分。
将时间序列重复分割为一个不断增长的训练集和一个固定大小的测试集。
例如,给定 test_size = 3, n_splits = 5 和 step_size = 1,训练 o 的和测试 x 的折叠可以可视化为:
| o o o x x x - - - - |
| o o o o x x x - - - |
| o o o o o x x x - - |
| o o o o o o x x x - |
| o o o o o o o x x x |
参数:
| 名称 | 类型 | 描述 | 默认 |
|---|---|---|---|
test_size |
int
|
每个分割的测试样本数量。 |
必需 |
n_splits |
int
|
分割的数量。 |
5
|
step_size |
int
|
窗口之间的步长大小。 |
1
|
eager |
bool
|
如果为True,返回DataFrames。否则,返回LazyFrames。 |
False
|
返回:
| 名称 | 类型 | 描述 |
|---|---|---|
splitter |
Callable[LazyFrame, Mapping[int, Tuple[LazyFrame, LazyFrame]]]
|
该函数接受一个面板 LazyFrame 和 (train, test) 拆分的字典,其中 键表示拆分编号 (1,2,...,n_splits),值是 LazyFrames 的元组。 |
sliding_window_split(test_size, n_splits=5, step_size=1, window_size=10, eager=False)
使用滑动窗口分割器返回训练/测试分割。
将时间序列反复分割为固定长度的训练集和测试集。
例如,给定 test_size = 3, n_splits = 5, step_size = 1 和 window_size=5
训练 o 和测试 x 的折叠可以被可视化为:
| o o o o o x x x - - - - |
| - o o o o o x x x - - - |
| - - o o o o o x x x - - |
| - - - o o o o o x x x - |
| - - - - o o o o o x x x |
参数:
| 名称 | 类型 | 描述 | 默认 |
|---|---|---|---|
test_size |
int
|
每个分割的测试样本数量。 |
必需 |
n_splits |
int
|
分割的数量。 |
5
|
step_size |
int
|
窗口之间的步长。 |
1
|
window_size |
int
|
训练的窗口大小。 |
10
|
eager |
bool
|
如果为 True 则返回 DataFrames。否则,返回 LazyFrames。 |
False
|
返回:
| 名称 | 类型 | 描述 |
|---|---|---|
splitter |
Callable[LazyFrame, Mapping[int, Tuple[LazyFrame, LazyFrame]]]
|
该函数接受一个面板 LazyFrame 和 (train, test) 拆分的字典,其中键表示拆分编号 (1,2,...,n_splits),值是 LazyFrames 的元组。 |
train_test_split(test_size=0.25, eager=False)
根据 test_size 返回按时间排序的训练集和测试集。
参数:
| 名称 | 类型 | 描述 | 默认 |
|---|---|---|---|
test_size |
int | float
|
测试样本的数量或比例。 |
0.25
|
eager |
bool
|
如果为 True,则立即评估并返回训练-测试 |
False
|
返回:
| 名称 | 类型 | 描述 |
|---|---|---|
splitter |
Union[EagerSplitter, LazySplitter]
|
该函数接受一个面板 DataFrame,或 LazyFrame,并返回:
* 如果 |