IDFModel

class pyspark.mllib.feature. IDFModel ( java_model : py4j.java_gateway.JavaObject ) [source]

表示一个可以转换词频向量的IDF模型。

新增于版本 1.2.0。

方法

call (名称, *a)

调用java_model的方法

docFreq ()

返回文档频率。

idf ()

返回当前的IDF向量。

numDocs ()

返回用于计算idf的评估文档数量

transform (x)

将词频(TF)向量转换为TF-IDF向量。

方法文档

call ( name : str , * a : Any ) → Any

调用java_model的方法

docFreq ( ) → List [ int ] [source]

返回文档频率。

新增于版本 3.0.0。

idf ( ) pyspark.mllib.linalg.Vector [source]

返回当前的IDF向量。

新增于版本 1.4.0。

numDocs ( ) → int [source]

返回用于计算idf的文档数量

新增于版本 3.0.0。

transform ( x : Union [ VectorLike , pyspark.rdd.RDD [ VectorLike ] ] ) → Union [ pyspark.mllib.linalg.Vector , pyspark.rdd.RDD [ pyspark.mllib.linalg.Vector ] ] [source]

将词频(TF)向量转换为TF-IDF向量。

如果为IDF计算设置了 minDocFreq ,则出现在少于 minDocFreq 文档中的术语将具有0的条目。

新增于版本 1.2.0。

Parameters
x pyspark.mllib.linalg.Vector or pyspark.RDD

一个词频向量的RDD或一个词频向量

Returns
pyspark.mllib.linalg.Vector or pyspark.RDD

一个TF-IDF向量的RDD或一个TF-IDF向量

注释

在 Python 中,transform 目前不能在 RDD 转换或操作中使用。 请直接在 RDD 上调用 transform。