speechbrain.lobes.models.spacy.nlp 模块

使用spaCy进行自然语言处理的模型和工具

作者 * Sylvain de Langen 2024

摘要

类：

封装了一个spaCy pipeline，提供了一些方法，使其更容易处理SB的典型句子格式，并添加了一些方便的函数，如果你只关心特定任务的话。

class speechbrain.lobes.models.spacy.nlp.SpacyPipeline(nlp: spacy.language.Language)[source]

基础类：object

包装了一个spaCy管道，提供了更易于处理SB典型句子格式的方法，并添加了一些方便的函数，如果你只关心特定任务的话。

static from_name(name, *args, **kwargs)[source]

通过使用spacy.load加载模型来创建一个管道。与其他工具包不同，如果你想使用远程模型（例如spacy download fr_core_news_md），你必须显式下载模型，而不是仅仅指定一个HF hub名称。

注意

如果你只需要在管道中启用一部分模块，例如用于词形还原，可以考虑 排除 _ 使用 exclude=[...] 参数。

Parameters:

Return type:

新的SpacyPipeline

__call__(inputs: List[str] | List[List[str]]) → Iterator[spacy.tokens.Doc][source]

将一批句子处理成spaCy文档的迭代器。

Parameters:: inputs (list of sentences (str or list of tokens)) – 要处理的句子，以批量列表的形式（列表中的字符串）或字符串形式。在标记列表的情况下，标记不需要已经为这个特定的序列标注器进行标记化，它们将用空格连接。
Returns:: 用于传递句子的文档迭代器。
Return type:: spacy.tokens.Doc 的迭代器

通过处理输入句子来对一批句子进行词形还原，丢弃其他不相关的输出。

Parameters:: inputs (list of sentences (str or list of tokens)) – 要词形还原的句子，以批量列表的形式表示（列表中的字符串）或字符串。在标记列表的情况下，标记不需要已经为这个特定的序列标注器进行标记化，它们将用空格连接。
Returns:: 对于每个句子，提取的词干序列为`str`s。
Return type:: list 的 list 的 str