查找表
该类提供了便捷访问大型查找表和字典的功能,例如利用布隆过滤器处理词形还原数据或分词器例外列表。查找操作可通过Vocab中的vocab.lookups实现,因此既能在管道组件应用前(如分词器和词形还原器中)使用,也能通过doc.vocab.lookups在管道组件内部访问。
Lookups.__init__ 方法
创建一个Lookups对象。
Lookups.__len__ 方法
获取查找表中当前的表格数量。
| 名称 | 描述 |
|---|---|
| 返回值 | 查找表中的表格数量。int |
Lookups.__contains__ 方法
检查查找表是否包含指定名称的表格。委托给
Lookups.has_table。
| 名称 | 描述 |
|---|---|
name | Name of the table. str |
| 返回值 | 判断指定名称的表格是否存在于查找表中。bool |
Lookups.tables 属性
获取lookups中所有表的名称。
| 名称 | 描述 |
|---|---|
| 返回值 | 查找表中的表名。列表[字符串] |
Lookups.add_table 方法
向查找表添加一个带有可选数据的新表。如果表已存在,则会引发错误。
| 名称 | 描述 |
|---|---|
name | Unique name of the table. str |
data | Optional data to add to the table. dict |
| 返回值 | 新添加的表格。Table |
Lookups.get_table 方法
从查找表中获取一个表。如果表不存在则引发错误。
| 名称 | 描述 |
|---|---|
name | Name of the table. str |
| 返回值 | 该表格。 Table |
Lookups.remove_table 方法
从查找表中移除一个表格。如果表格不存在,将引发错误。
| 名称 | 描述 |
|---|---|
name | Name of the table to remove. str |
| 返回值 | 被移除的表格。Table |
Lookups.has_table 方法
检查查找表是否包含指定名称的表格。等同于Lookups.__contains__。
| 名称 | 描述 |
|---|---|
name | Name of the table. str |
| 返回值 | 判断指定名称的表是否存在于查找表中。bool |
Lookups.to_bytes 方法
将查找表序列化为字节串。
| 名称 | 描述 |
|---|---|
| 返回值 | 序列化的查找表。bytes |
Lookups.from_bytes 方法
从字节串加载查找表。
| 名称 | 描述 |
|---|---|
bytes_data | The data to load from. bytes |
| 返回值 | 已加载的查找表。Lookups |
Lookups.to_disk 方法
将查找表保存到目录中,文件名为lookups.bin。需要一个目录路径作为参数,如果该目录不存在将会被自动创建。
| 名称 | 描述 |
|---|---|
path | A path to a directory, which will be created if it doesn’t exist. Paths may be either strings or Path-like objects. Union[str,Path] |
Lookups.from_disk 方法
从包含lookups.bin文件的目录加载查找表。如果文件不存在,将跳过加载。
| 名称 | 描述 |
|---|---|
path | A path to a directory. Paths may be either strings or Path-like objects. Union[str,Path] |
| 返回值 | 已加载的查找表。Lookups |
表格 classordererddict
查找表中的一个表。作为OrderedDict的子类,它实现了更一致和统一的API,并包含布隆过滤器以加速未命中的查找。支持OrderedDict/dict的所有其他方法和属性,以及此处列出的自定义方法。获取或设置键的方法同时接受整数和字符串(在添加到表之前会被哈希处理)。
Table.__init__ 方法
初始化一个新表格。
| 名称 | 描述 |
|---|---|
name | Optional table name for reference. str |
Table.from_dict 类方法
从字典初始化一个新表格。
| 名称 | 描述 |
|---|---|
data | The dictionary. dict |
name | Optional table name for reference. str |
| 返回值 | 新构建的对象。Table |
Table.set 方法
设置一个新的键/值对。字符串键会被哈希处理。等同于table[key] = value。
| 名称 | 描述 |
|---|---|
key | The key. Union[str, int] |
value | The value. |
Table.to_bytes 方法
将表格序列化为字节串。
| 名称 | 描述 |
|---|---|
| 返回值 | 序列化后的表格。bytes |
Table.from_bytes 方法
从字节字符串加载表格。
| 名称 | 描述 |
|---|---|
bytes_data | The data to load. bytes |
| 返回值 | 加载的表格。Table |
属性
| 名称 | 描述 |
|---|---|
name | Table name. str |
default_size | Default size of bloom filters if no data is provided. int |
bloom | The bloom filters. preshed.BloomFilter |