speechbrain.lobes.models.spacy.nlp 模块

使用spaCy进行自然语言处理的模型和工具

作者 * Sylvain de Langen 2024

摘要

类:

SpacyPipeline

封装了一个spaCy pipeline,提供了一些方法,使其更容易处理SB的典型句子格式,并添加了一些方便的函数,如果你只关心特定任务的话。

参考

class speechbrain.lobes.models.spacy.nlp.SpacyPipeline(nlp: spacy.language.Language)[source]

基础类:object

包装了一个spaCy管道,提供了更易于处理SB典型句子格式的方法,并添加了一些方便的函数,如果你只关心特定任务的话。

Parameters:

nlp (spacy.language.Language) – 使用的spaCy文本处理管道。

static from_name(name, *args, **kwargs)[source]

通过使用spacy.load加载模型来创建一个管道。 与其他工具包不同,如果你想使用远程模型(例如spacy download fr_core_news_md), 你必须显式下载模型,而不是仅仅指定一个HF hub名称。

注意

如果你只需要在管道中启用一部分模块, 例如用于词形还原,可以考虑 排除 _ 使用 exclude=[...] 参数。

Parameters:
  • name (str | Path) – 包名称或模型路径。

  • *args – 传递给 spacy.load 的额外位置参数。

  • **kwargs – 传递给 spacy.load 的额外关键字参数。

Return type:

新的SpacyPipeline

__call__(inputs: List[str] | List[List[str]]) Iterator[spacy.tokens.Doc][source]

将一批句子处理成spaCy文档的迭代器。

Parameters:

inputs (list of sentences (str or list of tokens)) – 要处理的句子,以批量列表的形式(列表中的字符串)或字符串形式。 在标记列表的情况下,标记不需要已经为这个特定的序列标注器进行标记化,它们将用空格连接。

Returns:

用于传递句子的文档迭代器。

Return type:

spacy.tokens.Doc 的迭代器

lemmatize(inputs: List[str] | List[List[str]]) List[List[str]][source]

通过处理输入句子来对一批句子进行词形还原,丢弃其他不相关的输出。

Parameters:

inputs (list of sentences (str or list of tokens)) – 要词形还原的句子,以批量列表的形式表示(列表中的字符串)或字符串。 在标记列表的情况下,标记不需要已经为这个特定的序列标注器进行标记化,它们将用空格连接。

Returns:

对于每个句子,提取的词干序列为`str`s。

Return type:

listliststr