mars.dataframe.DataFrame.drop_duplicates#

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False, method='auto')#

返回去除重复行的DataFrame。

考虑某些列是可选的。索引,包括时间索引被忽略。

Parameters
  • subset (列标签标签序列, 可选) – 仅考虑某些列以识别重复项,默认使用所有列。

  • keep ({'first', 'last', False}, default 'first') – 确定保留哪些重复项(如果有的话)。 - first : 除了第一次出现的项外,删除重复项。 - last : 除了最后一次出现的项外,删除重复项。 - False : 删除所有重复项。

  • inplace (bool, 默认值为 False) – 是否在原地删除重复项或返回一个副本。

  • ignore_index (bool, default False) – 如果为 True,结果轴将标记为 0, 1, …, n - 1。

Returns

移除重复项的DataFrame,或如果 inplace=True 则为None。

Return type

数据框