IDFModel ¶
-
class
pyspark.mllib.feature.
IDFModel
( java_model : py4j.java_gateway.JavaObject ) [source] ¶ -
表示一个可以转换词频向量的IDF模型。
新增于版本 1.2.0。
方法
call
(名称, *a)调用java_model的方法
docFreq
()返回文档频率。
idf
()返回当前的IDF向量。
numDocs
()返回用于计算idf的评估文档数量
transform
(x)将词频(TF)向量转换为TF-IDF向量。
方法文档
-
call
( name : str , * a : Any ) → Any ¶ -
调用java_model的方法
-
idf
( ) → pyspark.mllib.linalg.Vector [source] ¶ -
返回当前的IDF向量。
新增于版本 1.4.0。
-
transform
( x : Union [ VectorLike , pyspark.rdd.RDD [ VectorLike ] ] ) → Union [ pyspark.mllib.linalg.Vector , pyspark.rdd.RDD [ pyspark.mllib.linalg.Vector ] ] [source] ¶ -
将词频(TF)向量转换为TF-IDF向量。
如果为IDF计算设置了 minDocFreq ,则出现在少于 minDocFreq 文档中的术语将具有0的条目。
新增于版本 1.2.0。
- Parameters
-
-
x
pyspark.mllib.linalg.Vector
orpyspark.RDD
-
一个词频向量的RDD或一个词频向量
-
x
- Returns
-
-
pyspark.mllib.linalg.Vector
orpyspark.RDD
-
一个TF-IDF向量的RDD或一个TF-IDF向量
-
注释
在 Python 中,transform 目前不能在 RDD 转换或操作中使用。 请直接在 RDD 上调用 transform。
-