mars.dataframe.DataFrame#
- class mars.dataframe.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False, chunk_size=None, gpu=None, sparse=None, num_partitions=None)[来源]#
- __init__(data=None, index=None, columns=None, dtype=None, copy=False, chunk_size=None, gpu=None, sparse=None, num_partitions=None)[来源]#
方法
__init__([数据, 索引, 列, 数据类型, ...])abs()add(其他[, 轴, 层级, 填充值])获取数据框和其他的逐元素加法(二元运算符 add)。
add_prefix(前缀)在字符串 prefix 前添加前缀标签。
add_suffix(后缀)将后缀标签附加到字符串 suffix。
agg([函数, 轴])aggregate([函数, 轴])align(其他[, 连接, 轴, 级别, 复制, ...])使用指定的连接方法对齐两个对象的轴。
all([轴, 仅布尔值, 跳过空值, 级别, ...])any([轴, 仅布尔值, 跳过NA, 级别, ...])append(其他[, 忽略索引, ...])apply(func[, axis, raw, result_type, args, ...])在DataFrame的一个轴上应用一个函数。
assign(**kwargs)为DataFrame分配新列。
astype(数据类型[, 复制, 错误])将pandas对象转换为指定的数据类型
dtype.backfill([轴, 就地, 限制, 类型转换])与
DataFrame.fillna()具有相同意义,使用method='bfill'。bfill([轴, 就地, 限制, 向下转型])与
DataFrame.fillna()具有相同意义,使用method='bfill'。cartesian_chunk(right, func[, skip_infer, args])copy()copy_from(obj)copy_to(目标)corr([方法, 最小周期])计算列的成对相关性,排除NA/null值。
corrwith(other[, axis, drop, method])计算成对相关性。
count([轴, 级别, 仅数字, 组合大小])cummax([轴, 跳过空值])cummin([轴, 跳过na])cumprod([轴, 跳过空值])cumsum([轴, 跳过空值])describe([百分位数, 包含, 排除])diff([periods, axis])元素的第一次离散差异。
div(other[, axis, level, fill_value])获取数据框的浮点除法和其他元素级(双目运算符truediv)。
dot(其他)计算DataFrame与其他矩阵的乘法。
drop([标签, 轴, 索引, 列, 级别, ...])从行或列中删除指定的标签。
drop_duplicates([子集, 保留, 就地, ...])返回去除重复行的DataFrame。
dropna([轴, 如何, 阈值, 子集, 就地])删除缺失值。
duplicated([子集, 保留, 方法])返回表示重复行的布尔系列。
eq(other[, axis, level])获取数据框与其他数据框的逐元素相等情况(二元运算符 eq)。
eval(expr[, inplace])评估描述对DataFrame列进行操作的字符串。
ewm([com, span, halflife, alpha, ...])提供指数加权函数。
execute([session])expanding([最小周期, 中心, 轴])提供扩展变换。
explode(列[, 忽略索引])将列表中的每个元素转换为一行,复制索引值。
ffill([轴, 就地, 限制, 向下转换])与
DataFrame.fillna()结合使用method='ffill'的同义词。fillna([值, 方法, 轴, 就地, ...])使用指定的方法填充NA/NaN值。
floordiv(其他[, 轴, 层级, 填充值])获取数据框和其他元素的整数除法,逐元素(双目运算符 floordiv)。
from_records(记录,**kw)from_tensor(in_tensor[, index, columns])ge(其他[, 轴, 级别])获取数据帧和其他内容的逐元素大于或等于(二元运算符 ge)。
groupby([按, 级别, 作为索引, 排序, 分组键])gt(其他[, 轴, 级别])获取数据框和其他内容的元素级大于(双目运算符 gt)。
head([n])返回前 n 行。
insert(loc, column, value[, allow_duplicates])在指定位置插入列到数据框中。
isin(值)DataFrame中的每个元素是否包含在值中。
isna()检测缺失值。
isnull()检测缺失值。
iterrows([batch_size, session])遍历DataFrame的行,作为(索引,系列)对。
itertuples([index, name, batch_size, session])将DataFrame行作为命名元组进行迭代。
join(其他[, 连接条件, 连接方式, 左后缀, 右后缀, ...])加入另一个 DataFrame 的列。
keys()获取 'info axis'(请参见索引了解更多信息)。
kurt([轴, 跳过空值, 级别, 仅数字, ...])kurtosis([轴, 跳过空值, 级别, ...])le(其他[, 轴, 级别])获取数据框和其他的逐元素(按位操作符 le)小于或等于。
lt(其他[, 轴, 级别])获取数据框及其他的元素级(双目运算符 lt)小于。
map_chunk(func[, args, kwargs, skip_infer])将函数应用于每个块。
mask(cond[, other, inplace, axis, level, ...])在条件为真时替换值。
max([轴, 跳过缺失值, 级别, 仅数值, ...])mean([轴, 跳过NA, 级别, 仅数字, ...])melt([id_vars, value_vars, var_name, ...])将一个数据框从宽格式转换为长格式,选项是保留标识符集。
memory_usage([index, deep])返回每列的内存使用情况(以字节为单位)。
merge(right[, 如何, 基于, 左侧, 右侧, ...])使用数据库风格的连接合并DataFrame或命名Series对象。
min([轴, 跳过空值, 层级, 仅数字, ...])mod(other[, axis, level, fill_value])获取数据框和其他的模(按元素(二元运算符 mod))。
mul(其他[, 轴, 级别, 填充值])获取数据框和其他对象的元素-wise的乘法(二元操作符mul)。
multiply(other[, 轴, 级别, 填充值])获取数据框和其他对象的元素-wise的乘法(二元操作符mul)。
ne(其他[, 轴, 级别])获得数据框和其他的元素级不等于(二元运算符 ne)。
notna()检测现有的(非缺失)值。
notnull()检测现有的(非缺失)值。
nunique([轴, 丢弃空值, 合并大小])计算请求轴上的不同观察值。
pad([轴, 就地, 限制, 降级])与
DataFrame.fillna()结合使用method='ffill'的同义词。pct_change([periods, fill_method, limit, freq])当前元素与之前元素之间的百分比变化。
pop(item)返回物品并从框架中删除。
pow(other[, 轴, 级别, 填充值])获取数据框和其他的指数幂,逐元素(双目运算符 pow)。
prod([轴, 跳过NaN, 层级, 最小计数, ...])product([轴, 跳过NA, 级别, 最小计数, ...])quantile([q, axis, numeric_only, interpolation])在请求的轴上返回给定分位数的值。
query(expr[, inplace])使用布尔表达式查询DataFrame的列。
radd(other[, axis, level, fill_value])获取数据框与其他对象的逐元素(使用二元运算符radd)相加的结果。
rdiv(other[, axis, level, fill_value])获取数据框和其他元素的浮点除法(二元运算符 rtruediv)。
rebalance([因子, 轴, 分区数量, ...])使数据在整个集群中更加均衡。
rechunk(块大小[, 重新分配工人])reindex(*args, **kwargs)符合新的索引的数据系列/数据框,带有可选的填充逻辑。
reindex_like(other[, method, copy, limit, ...])返回一个与其他对象具有匹配索引的对象。
rename([映射器, 索引, 列, 轴, 复制, ...])改变坐标轴标签。
rename_axis([mapper, index, columns, axis, ...])设置索引或列的轴名称。
replace([要替换的值, 值, 就地, 限制, ...])将to_replace中给定的值替换为value。
reset_index([level, drop, inplace, ...])重置索引或其某一层级。
rfloordiv(其他[, 轴, 级别, 填充值])获取数据框和其他元素逐个的整数除法(二元操作符rfloordiv)。
rmod(other[, axis, level, fill_value])获取数据框和其他元素的模(二元运算符 rmod)。
rmul(other[, axis, level, fill_value])获取数据框与其他对象的元素级乘法(双目运算符 rmul)。
rolling(窗口[, 最小周期, 中心, ...])提供滚动窗口计算。
round([小数位数])将数据框四舍五入到可变的小数位数。
rpow(其他[, 轴, 级别, 填充值])获取数据框的指数幂以及其他,逐元素(双目运算符 rpow)。
rsub(other[, axis, level, fill_value])获取数据框与其他对象的逐元素减法(双目运算符rsubtract)。
rtruediv(other[, axis, level, fill_value])获取数据框和其他元素的浮点除法(二元运算符 rtruediv)。
sample([n, frac, replace, weights, ...])从对象的一个轴返回一个随机样本的项目。
select_dtypes([include, exclude])根据列的数据类型返回DataFrame列的子集。
sem([轴, 跳过空值, 层级, 自由度, ...])set_axis(标签[, 轴, 就地])将期望的索引分配给给定的轴。
set_index(键[, 删除, 附加, 就地, ...])shift([周期, 频率, 轴, 填充值])将索引移动到所需的周期数,并可选地指定时间freq。
skew([轴, 跳过缺失值, 级别, 仅数字, ...])sort_index([轴, 级别, 升序, ...])按标签对对象进行排序(沿着一个轴)。
sort_values(按[, 轴, 升序, 就地, ...])按任一轴上的值排序。
stack([级别, 丢弃空值])将指定级别从列堆叠到索引。
std([轴, 跳过空值, 等级, 自由度, ...])sub(other[, axis, level, fill_value])获取数据框与其他对象的逐元素减法(双目运算符 subtract)。
sum([轴, 跳过缺失值, 层级, 最小计数, ...])tail([n])返回最后 n 行。
tiles()to_cpu()to_csv(路径[, 分隔符, 缺失值表示, 浮点数格式, ...])将对象写入逗号分隔值(csv)文件。
to_gpu()to_pandas([session])to_parquet(路径[, 引擎, 压缩, ...])将数据框写入二进制parquet格式,每个块将被写入一个Parquet文件。
to_sql(name, con[, schema, if_exists, ...])将存储在DataFrame中的记录写入SQL数据库。
to_tensor()to_vineyard([vineyard_socket])transform(func[, axis, dtypes, skip_infer])在自我上调用
func生成一个具有转换值的 DataFrame。转换索引和列。
truediv(other[, axis, level, fill_value])获取数据框的浮点除法和其他元素级(双目运算符truediv)。
tshift([周期, 频率, 轴])如果可用,使用索引的频率来移动时间索引。
var([轴, 跳过NA, 级别, 自由度, ...])where(条件[, 其他, 就地, 轴, 水平, ...])在条件为假时替换值。
属性
访问行/列标签对的单个值。
data返回DataFrame中的数据类型。
返回一个整数,表示轴/数组维度的数量。
sizetype_namevalues