Word2VecModel

class pyspark.ml.feature. Word2VecModel ( java_model : Optional [ JavaObject ] = None ) [source]

Word2Vec 拟合的模型。

新增于版本 1.4.0。

方法

clear (param)

如果参数已明确设置,则从参数映射中清除该参数。

copy ([extra])

创建此实例的副本,具有相同的uid和一些额外的参数。

explainParam (参数)

解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ()

返回所有参数的文档,包括它们可选的默认值和用户提供的值。

extractParamMap ([extra])

提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。

findSynonyms (词, 数量)

找到与“word”相似度最接近的“num”个单词。

findSynonymsArray (词, 数量)

找到与“word”相似度最高的“num”个单词。

getInputCol ()

获取inputCol的值或其默认值。

getMaxIter ()

获取maxIter的值或其默认值。

getMaxSentenceLength ()

获取 maxSentenceLength 的值或其默认值。

getMinCount ()

获取 minCount 的值或其默认值。

getNumPartitions ()

获取numPartitions的值或其默认值。

getOrDefault (参数)

获取用户提供的参数映射中的参数值或其默认值。

getOutputCol ()

获取outputCol的值或其默认值。

getParam (paramName)

根据名称获取参数。

getSeed ()

获取种子值或其默认值。

getStepSize ()

获取 stepSize 的值或其默认值。

getVectorSize ()

获取vectorSize的值或其默认值。

getVectors ()

返回单词的向量表示形式,作为一个包含两个字段(word 和 vector)的数据框。

getWindowSize ()

获取 windowSize 的值或其默认值。

hasDefault (参数)

检查参数是否具有默认值。

hasParam (paramName)

测试此实例是否包含具有给定(字符串)名称的参数。

isDefined (参数)

检查参数是否由用户显式设置或具有默认值。

isSet (参数)

检查参数是否被用户显式设置。

load (路径)

从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。

read ()

返回此类的一个 MLReader 实例。

save (路径)

将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。

set (参数, 值)

在嵌入的参数映射中设置一个参数。

setInputCol (值)

设置 inputCol 的值。

setOutputCol (值)

设置 outputCol 的值。

transform (数据集[, 参数])

使用可选参数转换输入数据集。

write ()

返回此ML实例的MLWriter实例。

属性

inputCol

maxIter

maxSentenceLength

minCount

numPartitions

outputCol

参数

返回按名称排序的所有参数。

种子

stepSize

vectorSize

windowSize

方法文档

clear ( param : pyspark.ml.param.Param ) → None

如果参数已明确设置,则从参数映射中清除该参数。

copy ( extra : Optional [ ParamMap ] = None ) → JP

创建此实例的副本,具有相同的uid和一些额外的参数。此实现首先调用Params.copy,然后使用额外参数复制伴随的Java管道组件。因此,Python包装器和Java管道组件都会被复制。

Parameters
extra dict, optional

复制到新实例的额外参数

Returns
JavaParams

此实例的副本

explainParam ( param : Union [ str , pyspark.ml.param.Param ] ) → str

解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ( ) → str

返回所有参数的文档,包括它们可选的默认值和用户提供的值。

extractParamMap ( extra : Optional [ ParamMap ] = None ) → ParamMap

提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。

Parameters
extra dict, optional

额外参数值

Returns
dict

合并的参数映射

findSynonyms ( word : Union [ str , pyspark.ml.linalg.Vector ] , num : int ) → pyspark.sql.dataframe.DataFrame [source]

查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。 返回一个包含两个字段 word 和 similarity(表示余弦相似度)的数据框。

新增于版本 1.5.0。

findSynonymsArray ( word : Union [ pyspark.ml.linalg.Vector , str ] , num : int ) → List [ Tuple [ str , float ] ] [source]

查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。 返回一个包含两个字段 word 和 similarity 的数组(其中 similarity 表示余弦相似度)。

新增于版本 2.3.0。

getInputCol ( ) → str

获取inputCol的值或其默认值。

getMaxIter ( ) → int

获取maxIter的值或其默认值。

getMaxSentenceLength ( ) → int

获取 maxSentenceLength 的值或其默认值。

新增于版本 2.0.0。

getMinCount ( ) → int

获取 minCount 的值或其默认值。

新增于版本 1.4.0。

getNumPartitions ( ) → int

获取numPartitions的值或其默认值。

新增于版本 1.4.0。

getOrDefault ( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ]

获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。

getOutputCol ( ) → str

获取outputCol的值或其默认值。

getParam ( paramName : str ) pyspark.ml.param.Param

根据名称获取参数。

getSeed ( ) → int

获取种子值或其默认值。

getStepSize ( ) → float

获取 stepSize 的值或其默认值。

getVectorSize ( ) → int

获取vectorSize的值或其默认值。

新增于版本 1.4.0。

getVectors ( ) → pyspark.sql.dataframe.DataFrame [source]

返回单词的向量表示形式作为一个数据框,包含两个字段:word 和 vector。

新增于版本 1.5.0。

getWindowSize ( ) → int

获取 windowSize 的值或其默认值。

新增于版本 2.0.0。

hasDefault ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否具有默认值。

hasParam ( paramName : str ) → bool

测试此实例是否包含具有给定(字符串)名称的参数。

isDefined ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否由用户显式设置或具有默认值。

isSet ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否被用户显式设置。

classmethod load ( path : str ) → RL

从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。

classmethod read ( ) → pyspark.ml.util.JavaMLReader [ RL ]

返回此类的一个 MLReader 实例。

save ( path : str ) → None

将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。

set ( param : pyspark.ml.param.Param , value : Any ) → None

在嵌入的参数映射中设置一个参数。

setInputCol ( value : str ) pyspark.ml.feature.Word2VecModel [source]

设置 inputCol 的值。

setOutputCol ( value : str ) pyspark.ml.feature.Word2VecModel [source]

设置 outputCol 的值。

transform ( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame

使用可选参数转换输入数据集。

新增于版本 1.3.0。

Parameters
dataset pyspark.sql.DataFrame

输入数据集

params dict, optional

一个可选的参数映射,用于覆盖嵌入的参数。

Returns
pyspark.sql.DataFrame

转换后的数据集

write ( ) → pyspark.ml.util.JavaMLWriter

返回此ML实例的MLWriter实例。

属性文档

inputCol = Param(parent='undefined', name='inputCol', doc='input column name.')
maxIter = Param(parent='undefined', name='maxIter', doc='max number of iterations (>= 0).')
maxSentenceLength : pyspark.ml.param.Param[int] = Param(parent='undefined', name='maxSentenceLength', doc='Maximum length (in words) of each sentence in the input data. Any sentence longer than this threshold will be divided into chunks up to the size.')
minCount : pyspark.ml.param.Param[int] = Param(parent='undefined', name='minCount', doc="the minimum number of times a token must appear to be included in the word2vec model's vocabulary")
numPartitions : pyspark.ml.param.Param[int] = Param(parent='undefined', name='numPartitions', doc='number of partitions for sentences of words')
outputCol = Param(parent='undefined', name='outputCol', doc='output column name.')
params

返回按名称排序的所有参数。默认实现使用 dir() 获取所有类型为 Param 的属性。

seed = Param(parent='undefined', name='seed', doc='random seed.')
stepSize = Param(parent='undefined', name='stepSize', doc='Step size to be used for each iteration of optimization (>= 0).')
vectorSize : pyspark.ml.param.Param[int] = Param(parent='undefined', name='vectorSize', doc='the dimension of codes after transforming from words')
windowSize : pyspark.ml.param.Param[int] = Param(parent='undefined', name='windowSize', doc='the window size (context words from [-window, window]). Default value is 5')