mars.dataframe.Series.drop_duplicates#

Series.drop_duplicates(keep='first', inplace=False, method='auto')#

返回去除重复值的系列。

Parameters

keep ({‘first’, ‘last’, False}, 默认为 ‘first’) –
处理重复项的方法：
- ’first’ : 除了第一次出现的，删除其他重复项。
- ’last’ : 除了最后一次出现的，删除其他重复项。
- False : 删除所有重复项。
inplace (bool, 默认 False) – 如果 True，则在原地进行操作并返回 None。

Returns

重复项已被删除的序列。

Return type

系列

另请参阅

Index.drop_duplicates: 索引上的等效方法。
DataFrame.drop_duplicates: 数据框上的等效方法。
Series.duplicated: 系列上的相关方法，指示重复的系列值。

示例

生成一个包含重复条目的序列。

>>> import mars.dataframe as md
>>> s = md.Series(['lame', 'cow', 'lame', 'beetle', 'lame', 'hippo'],
...               name='animal')
>>> s.execute()
0      lame
1       cow
2      lame
3    beetle
4      lame
5     hippo
Name: animal, dtype: object

使用'keep'参数，可以改变重复值的选择行为。值'first'将保留每组重复条目的第一次出现。keep的默认值是'first'。

>>> s.drop_duplicates().execute()
0      lame
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

参数‘keep’的值为‘last’将保留每组重复项的最后一个出现。

>>> s.drop_duplicates(keep='last').execute()
1       cow
3    beetle
4      lame
5     hippo
Name: animal, dtype: object

参数‘keep’的值 False 会丢弃所有重复条目的集合。将‘inplace’的值设置为 True 将执行就地操作并返回 None。

>>> s.drop_duplicates(keep=False, inplace=True)
>>> s.execute()
1       cow
3    beetle
5     hippo
Name: animal, dtype: object