完成任务
spaCy旨在帮助您完成实际工作——构建真实产品或获取切实洞见。该库尊重您的时间,并努力避免浪费。它易于安装,其API简洁高效。
极速
spaCy擅长大规模信息提取任务。它从头开始用精心管理内存的Cython编写。如果你的应用需要处理整个网络转储数据,spaCy就是你要使用的库。
强大的生态系统
自2015年发布以来,spaCy已成为拥有庞大生态系统的行业标准。您可以从多种插件中进行选择,与机器学习技术栈集成,并构建自定义组件和工作流程。
spaCy旨在帮助您完成实际工作——构建真实产品或获取切实洞见。该库尊重您的时间,并努力避免浪费。它易于安装,其API简洁高效。
spaCy擅长大规模信息提取任务。它从头开始用精心管理内存的Cython编写。如果你的应用需要处理整个网络转储数据,spaCy就是你要使用的库。
自2015年发布以来,spaCy已成为拥有庞大生态系统的行业标准。您可以从多种插件中进行选择,与机器学习技术栈集成,并构建自定义组件和工作流程。
编辑代码并试用spaCy
spaCy v3.0 引入了一个全面且可扩展的系统,用于配置训练运行。您的配置文件将描述训练运行的每个细节,没有隐藏的默认值,使得重新运行实验和跟踪变更变得容易。您可以使用快速启动小部件或init config命令开始,或者克隆一个项目模板以获得端到端的工作流程。
# This is an auto-generated partial config. To use it with 'spacy train'
# you can run spacy init fill-config to auto-fill all default settings:
# python -m spacy init fill-config ./base_config.cfg ./config.cfg
[paths]
train = null
dev = null
vectors = null
[system]
gpu_allocator = null
[nlp]
lang = "en"
pipeline = []
batch_size = 1000
[components]
[corpora]
[corpora.train]
@readers = "spacy.Corpus.v1"
path = ${paths.train}
max_length = 0
[corpora.dev]
@readers = "spacy.Corpus.v1"
path = ${paths.dev}
max_length = 0
[training]
dev_corpus = "corpora.dev"
train_corpus = "corpora.train"
[training.optimizer]
@optimizers = "Adam.v1"
[training.batcher]
@batchers = "spacy.batch_by_words.v1"
discard_oversize = false
tolerance = 0.2
[training.batcher.size]
@schedules = "compounding.v1"
start = 100
stop = 1000
compound = 1.001
[initialize]
vectors = ${paths.vectors}spaCy的新项目系统为您提供了从原型到生产的顺畅路径。它让您可以跟踪所有的数据转换、预处理和训练步骤,从而确保您的项目随时可以交付自动化。该系统具有源资产下载、命令执行、校验和验证功能,并支持多种后端和集成缓存。
| Pipeline | Parser | Tagger | NER |
|---|---|---|---|
en_core_web_trf (spaCy v3) | 95.1 | 97.8 | 89.8 |
en_core_web_lg (spaCy v3) | 92.0 | 97.4 | 85.5 |
en_core_web_lg (spaCy v2) | 91.9 | 97.2 | 85.5 |
完整流程准确率基于 OntoNotes 5.0语料库(在开发集上报告)。
| 命名实体识别系统 | OntoNotes | CoNLL '03 |
|---|---|---|
| spaCy RoBERTa (2020) | 89.8 | 91.6 |
| Stanza (StanfordNLP)1 | 88.8 | 92.1 |
| Flair2 | 89.7 | 93.1 |
命名实体识别准确率在
OntoNotes 5.0和
CoNLL-2003语料库上的表现。更多结果请参阅
NLP-progress。项目模板:
benchmarks/ner_conll03。1.
Qi et al. (2020)。2.
Akbik et al. (2018)。