Mars.dataframe.Series.duplicated#

Series.duplicated(keep='first', method='auto')#

指示重复的系列值。

重复的值在结果序列中表示为 True 值。可以指示所有重复项、除第一个外的所有项或除最后一个外的所有重复项。

Parameters

keep ({'first', 'last', False}, default 'first') –

处理去重的方法：

’first’ : 除第一个出现外，将重复项标记为 True。
’last’ : 除最后一个出现外，将重复项标记为 True。
False : 将所有重复项标记为 True。

Returns

系列指示每个值是否出现在之前的值中。

Return type

系列

另请参阅

Index.duplicated: 与pandas.Index的等效方法。
DataFrame.duplicated: 相当于pandas.DataFrame上的方法。
Series.drop_duplicates: 从序列中移除重复值。

示例

默认情况下，对于每组重复的值，第一个出现的值设置为 False，而所有其他值设置为 True：

>>> import mars.dataframe as md

>>> animals = md.Series(['lame', 'cow', 'lame', 'beetle', 'lame'])
>>> animals.duplicated().execute()
0    False
1    False
2     True
3    False
4     True
dtype: bool

这相当于

>>> animals.duplicated(keep='first').execute()
  False
  False
   True
  False
   True
dtype: bool

通过使用“last”，每组重复值的最后一次出现被设置为 False，所有其他的被设置为 True：

>>> animals.duplicated(keep='last').execute()
   True
  False
   True
  False
  False
dtype: bool

通过将 keep 设置为 False，所有重复项都是 True：

>>> animals.duplicated(keep=False).execute()
   True
  False
   True
  False
   True
dtype: bool