mars.dataframe.DataFrame#

class mars.dataframe.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False, chunk_size=None, gpu=None, sparse=None, num_partitions=None)[来源]#
__init__(data=None, index=None, columns=None, dtype=None, copy=False, chunk_size=None, gpu=None, sparse=None, num_partitions=None)[来源]#

方法

__init__([数据, 索引, 列, 数据类型, ...])

abs()

add(其他[, 轴, 层级, 填充值])

获取数据框和其他的逐元素加法(二元运算符 add)。

add_prefix(前缀)

在字符串 prefix 前添加前缀标签。

add_suffix(后缀)

将后缀标签附加到字符串 suffix

agg([函数, 轴])

aggregate([函数, 轴])

align(其他[, 连接, 轴, 级别, 复制, ...])

使用指定的连接方法对齐两个对象的轴。

all([轴, 仅布尔值, 跳过空值, 级别, ...])

any([轴, 仅布尔值, 跳过NA, 级别, ...])

append(其他[, 忽略索引, ...])

apply(func[, axis, raw, result_type, args, ...])

在DataFrame的一个轴上应用一个函数。

assign(**kwargs)

为DataFrame分配新列。

astype(数据类型[, 复制, 错误])

将pandas对象转换为指定的数据类型 dtype.

backfill([轴, 就地, 限制, 类型转换])

DataFrame.fillna() 具有相同意义,使用 method='bfill'

bfill([轴, 就地, 限制, 向下转型])

DataFrame.fillna() 具有相同意义,使用 method='bfill'

cartesian_chunk(right, func[, skip_infer, args])

copy()

copy_from(obj)

copy_to(目标)

corr([方法, 最小周期])

计算列的成对相关性,排除NA/null值。

corrwith(other[, axis, drop, method])

计算成对相关性。

count([轴, 级别, 仅数字, 组合大小])

cummax([轴, 跳过空值])

cummin([轴, 跳过na])

cumprod([轴, 跳过空值])

cumsum([轴, 跳过空值])

describe([百分位数, 包含, 排除])

diff([periods, axis])

元素的第一次离散差异。

div(other[, axis, level, fill_value])

获取数据框的浮点除法和其他元素级(双目运算符truediv)。

dot(其他)

计算DataFrame与其他矩阵的乘法。

drop([标签, 轴, 索引, 列, 级别, ...])

从行或列中删除指定的标签。

drop_duplicates([子集, 保留, 就地, ...])

返回去除重复行的DataFrame。

dropna([轴, 如何, 阈值, 子集, 就地])

删除缺失值。

duplicated([子集, 保留, 方法])

返回表示重复行的布尔系列。

eq(other[, axis, level])

获取数据框与其他数据框的逐元素相等情况(二元运算符 eq)。

eval(expr[, inplace])

评估描述对DataFrame列进行操作的字符串。

ewm([com, span, halflife, alpha, ...])

提供指数加权函数。

execute([session])

expanding([最小周期, 中心, 轴])

提供扩展变换。

explode(列[, 忽略索引])

将列表中的每个元素转换为一行,复制索引值。

ffill([轴, 就地, 限制, 向下转换])

DataFrame.fillna() 结合使用 method='ffill' 的同义词。

fillna([值, 方法, 轴, 就地, ...])

使用指定的方法填充NA/NaN值。

floordiv(其他[, 轴, 层级, 填充值])

获取数据框和其他元素的整数除法,逐元素(双目运算符 floordiv)。

from_records(记录,**kw)

from_tensor(in_tensor[, index, columns])

ge(其他[, 轴, 级别])

获取数据帧和其他内容的逐元素大于或等于(二元运算符 ge)。

groupby([按, 级别, 作为索引, 排序, 分组键])

gt(其他[, 轴, 级别])

获取数据框和其他内容的元素级大于(双目运算符 gt)。

head([n])

返回前 n 行。

insert(loc, column, value[, allow_duplicates])

在指定位置插入列到数据框中。

isin(值)

DataFrame中的每个元素是否包含在值中。

isna()

检测缺失值。

isnull()

检测缺失值。

iterrows([batch_size, session])

遍历DataFrame的行,作为(索引,系列)对。

itertuples([index, name, batch_size, session])

将DataFrame行作为命名元组进行迭代。

join(其他[, 连接条件, 连接方式, 左后缀, 右后缀, ...])

加入另一个 DataFrame 的列。

keys()

获取 'info axis'(请参见索引了解更多信息)。

kurt([轴, 跳过空值, 级别, 仅数字, ...])

kurtosis([轴, 跳过空值, 级别, ...])

le(其他[, 轴, 级别])

获取数据框和其他的逐元素(按位操作符 le)小于或等于。

lt(其他[, 轴, 级别])

获取数据框及其他的元素级(双目运算符 lt)小于。

map_chunk(func[, args, kwargs, skip_infer])

将函数应用于每个块。

mask(cond[, other, inplace, axis, level, ...])

在条件为真时替换值。

max([轴, 跳过缺失值, 级别, 仅数值, ...])

mean([轴, 跳过NA, 级别, 仅数字, ...])

melt([id_vars, value_vars, var_name, ...])

将一个数据框从宽格式转换为长格式,选项是保留标识符集。

memory_usage([index, deep])

返回每列的内存使用情况(以字节为单位)。

merge(right[, 如何, 基于, 左侧, 右侧, ...])

使用数据库风格的连接合并DataFrame或命名Series对象。

min([轴, 跳过空值, 层级, 仅数字, ...])

mod(other[, axis, level, fill_value])

获取数据框和其他的模(按元素(二元运算符 mod))。

mul(其他[, 轴, 级别, 填充值])

获取数据框和其他对象的元素-wise的乘法(二元操作符mul)。

multiply(other[, 轴, 级别, 填充值])

获取数据框和其他对象的元素-wise的乘法(二元操作符mul)。

ne(其他[, 轴, 级别])

获得数据框和其他的元素级不等于(二元运算符 ne)。

notna()

检测现有的(非缺失)值。

notnull()

检测现有的(非缺失)值。

nunique([轴, 丢弃空值, 合并大小])

计算请求轴上的不同观察值。

pad([轴, 就地, 限制, 降级])

DataFrame.fillna() 结合使用 method='ffill' 的同义词。

pct_change([periods, fill_method, limit, freq])

当前元素与之前元素之间的百分比变化。

pop(item)

返回物品并从框架中删除。

pow(other[, 轴, 级别, 填充值])

获取数据框和其他的指数幂,逐元素(双目运算符 pow)。

prod([轴, 跳过NaN, 层级, 最小计数, ...])

product([轴, 跳过NA, 级别, 最小计数, ...])

quantile([q, axis, numeric_only, interpolation])

在请求的轴上返回给定分位数的值。

query(expr[, inplace])

使用布尔表达式查询DataFrame的列。

radd(other[, axis, level, fill_value])

获取数据框与其他对象的逐元素(使用二元运算符radd)相加的结果。

rdiv(other[, axis, level, fill_value])

获取数据框和其他元素的浮点除法(二元运算符 rtruediv)。

rebalance([因子, 轴, 分区数量, ...])

使数据在整个集群中更加均衡。

rechunk(块大小[, 重新分配工人])

reindex(*args, **kwargs)

符合新的索引的数据系列/数据框,带有可选的填充逻辑。

reindex_like(other[, method, copy, limit, ...])

返回一个与其他对象具有匹配索引的对象。

rename([映射器, 索引, 列, 轴, 复制, ...])

改变坐标轴标签。

rename_axis([mapper, index, columns, axis, ...])

设置索引或列的轴名称。

replace([要替换的值, 值, 就地, 限制, ...])

to_replace中给定的值替换为value

reset_index([level, drop, inplace, ...])

重置索引或其某一层级。

rfloordiv(其他[, 轴, 级别, 填充值])

获取数据框和其他元素逐个的整数除法(二元操作符rfloordiv)。

rmod(other[, axis, level, fill_value])

获取数据框和其他元素的模(二元运算符 rmod)。

rmul(other[, axis, level, fill_value])

获取数据框与其他对象的元素级乘法(双目运算符 rmul)。

rolling(窗口[, 最小周期, 中心, ...])

提供滚动窗口计算。

round([小数位数])

将数据框四舍五入到可变的小数位数。

rpow(其他[, 轴, 级别, 填充值])

获取数据框的指数幂以及其他,逐元素(双目运算符 rpow)。

rsub(other[, axis, level, fill_value])

获取数据框与其他对象的逐元素减法(双目运算符rsubtract)。

rtruediv(other[, axis, level, fill_value])

获取数据框和其他元素的浮点除法(二元运算符 rtruediv)。

sample([n, frac, replace, weights, ...])

从对象的一个轴返回一个随机样本的项目。

select_dtypes([include, exclude])

根据列的数据类型返回DataFrame列的子集。

sem([轴, 跳过空值, 层级, 自由度, ...])

set_axis(标签[, 轴, 就地])

将期望的索引分配给给定的轴。

set_index(键[, 删除, 附加, 就地, ...])

shift([周期, 频率, 轴, 填充值])

将索引移动到所需的周期数,并可选地指定时间freq

skew([轴, 跳过缺失值, 级别, 仅数字, ...])

sort_index([轴, 级别, 升序, ...])

按标签对对象进行排序(沿着一个轴)。

sort_values(按[, 轴, 升序, 就地, ...])

按任一轴上的值排序。

stack([级别, 丢弃空值])

将指定级别从列堆叠到索引。

std([轴, 跳过空值, 等级, 自由度, ...])

sub(other[, axis, level, fill_value])

获取数据框与其他对象的逐元素减法(双目运算符 subtract)。

sum([轴, 跳过缺失值, 层级, 最小计数, ...])

tail([n])

返回最后 n 行。

tiles()

to_cpu()

to_csv(路径[, 分隔符, 缺失值表示, 浮点数格式, ...])

将对象写入逗号分隔值(csv)文件。

to_gpu()

to_pandas([session])

to_parquet(路径[, 引擎, 压缩, ...])

将数据框写入二进制parquet格式,每个块将被写入一个Parquet文件。

to_sql(name, con[, schema, if_exists, ...])

将存储在DataFrame中的记录写入SQL数据库。

to_tensor()

to_vineyard([vineyard_socket])

transform(func[, axis, dtypes, skip_infer])

在自我上调用 func 生成一个具有转换值的 DataFrame。

transpose()

转换索引和列。

truediv(other[, axis, level, fill_value])

获取数据框的浮点除法和其他元素级(双目运算符truediv)。

tshift([周期, 频率, 轴])

如果可用,使用索引的频率来移动时间索引。

var([轴, 跳过NA, 级别, 自由度, ...])

where(条件[, 其他, 就地, 轴, 水平, ...])

在条件为假时替换值。

属性

T

at

访问行/列标签对的单个值。

columns

data

dtypes

返回DataFrame中的数据类型。

iat

iloc

index

loc

ndim

返回一个整数,表示轴/数组维度的数量。

shape

size

type_name

values