枢轴
在DataFrame中旋转一列并执行以下聚合操作之一:
- 第一
- 最后
- 求和
- 最小值
- 最大值
- 平均值
- 中位数
- 长度
数据透视操作包括按一个或多个列进行分组(这些将成为新的y轴),将要进行透视的列(这将成为新的x轴)以及一个聚合操作。
数据集
shape: (5, 3)
┌─────┬─────┬─────┐
│ foo ┆ N ┆ bar │
│ --- ┆ --- ┆ --- │
│ str ┆ i64 ┆ str │
╞═════╪═════╪═════╡
│ A ┆ 1 ┆ k │
│ A ┆ 2 ┆ l │
│ B ┆ 2 ┆ m │
│ B ┆ 4 ┆ n │
│ C ┆ 2 ┆ o │
└─────┴─────┴─────┘
急切
shape: (3, 6)
┌─────┬──────┬──────┬──────┬──────┬──────┐
│ foo ┆ k ┆ l ┆ m ┆ n ┆ o │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ str ┆ i64 ┆ i64 ┆ i64 ┆ i64 ┆ i64 │
╞═════╪══════╪══════╪══════╪══════╪══════╡
│ A ┆ 1 ┆ 2 ┆ null ┆ null ┆ null │
│ B ┆ null ┆ null ┆ 2 ┆ 4 ┆ null │
│ C ┆ null ┆ null ┆ null ┆ null ┆ 2 │
└─────┴──────┴──────┴──────┴──────┴──────┘
懒加载
Polars 的 LazyFrame 总是需要静态地知道计算的模式(在收集查询之前)。由于枢轴的输出模式取决于数据,因此在不运行查询的情况下无法确定模式。
Polars 本可以像 Spark 那样为你抽象这一事实,但我们不希望你用霰弹枪打自己的脚。成本应该事先明确。
q = (
df.lazy()
.collect()
.pivot(index="foo", on="bar", values="N", aggregate_function="first")
.lazy()
)
out = q.collect()
print(out)
let q = df.lazy();
let q2 = pivot(
&q.collect()?,
["foo"],
Some(["bar"]),
Some(["N"]),
false,
None,
None,
)?
.lazy();
let out = q2.collect()?;
println!("{}", &out);
shape: (3, 6)
┌─────┬──────┬──────┬──────┬──────┬──────┐
│ foo ┆ k ┆ l ┆ m ┆ n ┆ o │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ str ┆ i64 ┆ i64 ┆ i64 ┆ i64 ┆ i64 │
╞═════╪══════╪══════╪══════╪══════╪══════╡
│ A ┆ 1 ┆ 2 ┆ null ┆ null ┆ null │
│ B ┆ null ┆ null ┆ 2 ┆ 4 ┆ null │
│ C ┆ null ┆ null ┆ null ┆ null ┆ 2 │
└─────┴──────┴──────┴──────┴──────┴──────┘