mars.dataframe.DataFrame.drop_duplicates#
- DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False, method='auto')#
返回去除重复行的DataFrame。
考虑某些列是可选的。索引,包括时间索引被忽略。
- Parameters
subset (列标签 或 标签序列, 可选) – 仅考虑某些列以识别重复项,默认使用所有列。
keep ({'first', 'last', False}, default 'first') – 确定保留哪些重复项(如果有的话)。 -
first: 除了第一次出现的项外,删除重复项。 -last: 除了最后一次出现的项外,删除重复项。 - False : 删除所有重复项。inplace (bool, 默认值为 False) – 是否在原地删除重复项或返回一个副本。
ignore_index (bool, default False) – 如果为 True,结果轴将标记为 0, 1, …, n - 1。
- Returns
移除重复项的DataFrame,或如果
inplace=True则为None。- Return type