Word2VecModel ¶

class pyspark.ml.feature. Word2VecModel ( java_model : Optional [ JavaObject ] = None ) [source] ¶

由 Word2Vec 拟合的模型。

新增于版本 1.4.0。

方法

`clear` (param)	如果参数已明确设置，则从参数映射中清除该参数。
`copy` ([extra])	创建此实例的副本，具有相同的uid和一些额外的参数。
`explainParam` (参数)	解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
`explainParams` ()	返回所有参数的文档，包括它们可选的默认值和用户提供的值。
`extractParamMap` ([extra])	提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。
`findSynonyms` (词, 数量)	找到与“word”相似度最接近的“num”个单词。
`findSynonymsArray` (词, 数量)	找到与“word”相似度最高的“num”个单词。
`getInputCol` ()	获取inputCol的值或其默认值。
`getMaxIter` ()	获取maxIter的值或其默认值。
`getMaxSentenceLength` ()	获取 maxSentenceLength 的值或其默认值。
`getMinCount` ()	获取 minCount 的值或其默认值。
`getNumPartitions` ()	获取numPartitions的值或其默认值。
`getOrDefault` (参数)	获取用户提供的参数映射中的参数值或其默认值。
`getOutputCol` ()	获取outputCol的值或其默认值。
`getParam` (paramName)	根据名称获取参数。
`getSeed` ()	获取种子值或其默认值。
`getStepSize` ()	获取 stepSize 的值或其默认值。
`getVectorSize` ()	获取vectorSize的值或其默认值。
`getVectors` ()	返回单词的向量表示形式，作为一个包含两个字段（word 和 vector）的数据框。
`getWindowSize` ()	获取 windowSize 的值或其默认值。
`hasDefault` (参数)	检查参数是否具有默认值。
`hasParam` (paramName)	测试此实例是否包含具有给定（字符串）名称的参数。
`isDefined` (参数)	检查参数是否由用户显式设置或具有默认值。
`isSet` (参数)	检查参数是否被用户显式设置。
`load` (路径)	从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。
`read` ()	返回此类的一个 MLReader 实例。
`save` (路径)	将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。
`set` (参数, 值)	在嵌入的参数映射中设置一个参数。
`setInputCol` (值)	设置 `inputCol` 的值。
`setOutputCol` (值)	设置 `outputCol` 的值。
`transform` (数据集[, 参数])	使用可选参数转换输入数据集。
`write` ()	返回此ML实例的MLWriter实例。

属性

`inputCol`
`maxIter`
`maxSentenceLength`
`minCount`
`numPartitions`
`outputCol`
`参数`	返回按名称排序的所有参数。
`种子`
`stepSize`
`vectorSize`
`windowSize`

方法文档

clear ( param : pyspark.ml.param.Param ) → None ¶: 如果参数已明确设置，则从参数映射中清除该参数。

copy ( extra : Optional [ ParamMap ] = None ) → JP ¶

创建此实例的副本，具有相同的uid和一些额外的参数。此实现首先调用Params.copy，然后使用额外参数复制伴随的Java管道组件。因此，Python包装器和Java管道组件都会被复制。

Parameters

extra dict, optional: 复制到新实例的额外参数

Returns

JavaParams: 此实例的副本

explainParam ( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶: 解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ( ) → str ¶: 返回所有参数的文档，包括它们可选的默认值和用户提供的值。

extractParamMap ( extra : Optional [ ParamMap ] = None ) → ParamMap ¶

提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。

Parameters

extra dict, optional: 额外参数值

Returns

dict: 合并的参数映射

findSynonyms ( word : Union [ str , pyspark.ml.linalg.Vector ] , num : int ) → pyspark.sql.dataframe.DataFrame [source] ¶: 查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。返回一个包含两个字段 word 和 similarity（表示余弦相似度）的数据框。

新增于版本 1.5.0。

findSynonymsArray ( word : Union [ pyspark.ml.linalg.Vector , str ] , num : int ) → List [ Tuple [ str , float ] ] [source] ¶: 查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。返回一个包含两个字段 word 和 similarity 的数组（其中 similarity 表示余弦相似度）。

新增于版本 2.3.0。

getInputCol ( ) → str ¶: 获取inputCol的值或其默认值。

getMaxIter ( ) → int ¶: 获取maxIter的值或其默认值。

getMaxSentenceLength ( ) → int ¶: 获取 maxSentenceLength 的值或其默认值。

新增于版本 2.0.0。

getMinCount ( ) → int ¶: 获取 minCount 的值或其默认值。

新增于版本 1.4.0。

getNumPartitions ( ) → int ¶: 获取numPartitions的值或其默认值。

新增于版本 1.4.0。

getOrDefault ( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶: 获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置，则引发错误。

getOutputCol ( ) → str ¶: 获取outputCol的值或其默认值。

getParam ( paramName : str ) → pyspark.ml.param.Param ¶: 根据名称获取参数。

getSeed ( ) → int ¶: 获取种子值或其默认值。

getStepSize ( ) → float ¶: 获取 stepSize 的值或其默认值。

getVectorSize ( ) → int ¶: 获取vectorSize的值或其默认值。

新增于版本 1.4.0。

getVectors ( ) → pyspark.sql.dataframe.DataFrame [source] ¶: 返回单词的向量表示形式作为一个数据框，包含两个字段：word 和 vector。

新增于版本 1.5.0。

getWindowSize ( ) → int ¶: 获取 windowSize 的值或其默认值。

新增于版本 2.0.0。

hasDefault ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否具有默认值。

hasParam ( paramName : str ) → bool ¶: 测试此实例是否包含具有给定（字符串）名称的参数。

isDefined ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否由用户显式设置或具有默认值。

isSet ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否被用户显式设置。

classmethod load ( path : str ) → RL ¶: 从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。

classmethod read ( ) → pyspark.ml.util.JavaMLReader [ RL ] ¶: 返回此类的一个 MLReader 实例。

save ( path : str ) → None ¶: 将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。

set ( param : pyspark.ml.param.Param , value : Any ) → None ¶: 在嵌入的参数映射中设置一个参数。

setInputCol ( value : str ) → pyspark.ml.feature.Word2VecModel [source] ¶: 设置 inputCol 的值。

setOutputCol ( value : str ) → pyspark.ml.feature.Word2VecModel [source] ¶: 设置 outputCol 的值。

transform ( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame ¶

使用可选参数转换输入数据集。

新增于版本 1.3.0。

Parameters

dataset pyspark.sql.DataFrame: 输入数据集
params dict, optional: 一个可选的参数映射，用于覆盖嵌入的参数。

Returns

pyspark.sql.DataFrame: 转换后的数据集

write ( ) → pyspark.ml.util.JavaMLWriter ¶: 返回此ML实例的MLWriter实例。

属性文档

inputCol = Param(parent='undefined', name='inputCol', doc='input column name.') ¶

maxIter = Param(parent='undefined', name='maxIter', doc='max number of iterations (>= 0).') ¶

maxSentenceLength : pyspark.ml.param.Param[int] = Param(parent='undefined', name='maxSentenceLength', doc='Maximum length (in words) of each sentence in the input data. Any sentence longer than this threshold will be divided into chunks up to the size.') ¶

minCount : pyspark.ml.param.Param[int] = Param(parent='undefined', name='minCount', doc="the minimum number of times a token must appear to be included in the word2vec model's vocabulary") ¶

numPartitions : pyspark.ml.param.Param[int] = Param(parent='undefined', name='numPartitions', doc='number of partitions for sentences of words') ¶

outputCol = Param(parent='undefined', name='outputCol', doc='output column name.') ¶

params ¶: 返回按名称排序的所有参数。默认实现使用 dir() 获取所有类型为 Param 的属性。

seed = Param(parent='undefined', name='seed', doc='random seed.') ¶

stepSize = Param(parent='undefined', name='stepSize', doc='Step size to be used for each iteration of optimization (>= 0).') ¶

vectorSize : pyspark.ml.param.Param[int] = Param(parent='undefined', name='vectorSize', doc='the dimension of codes after transforming from words') ¶

windowSize : pyspark.ml.param.Param[int] = Param(parent='undefined', name='windowSize', doc='the window size (context words from [-window, window]). Default value is 5') ¶

Word2Vec

线性支持向量分类器