mars.dataframe.DataFrame.drop_duplicates#

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False, method='auto')#

返回去除重复行的DataFrame。

考虑某些列是可选的。索引，包括时间索引被忽略。

Parameters

subset (列标签 或 标签序列, 可选) – 仅考虑某些列以识别重复项，默认使用所有列。
keep ({'first', 'last', False}, default 'first') – 确定保留哪些重复项（如果有的话）。 - first : 除了第一次出现的项外，删除重复项。 - last : 除了最后一次出现的项外，删除重复项。 - False : 删除所有重复项。
inplace (bool, 默认值为 False) – 是否在原地删除重复项或返回一个副本。
ignore_index (bool, default False) – 如果为 True，结果轴将标记为 0, 1, …, n - 1。

Returns

移除重复项的DataFrame，或如果 inplace=True 则为None。

Return type

数据框