camel.datahubs 包#
子模块#
camel.datahubs.base 模块#
- class camel.datahubs.base.BaseDatasetManager[来源]#
基类:
ABC数据集管理器的抽象基类。
- abstract add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
向数据集中添加记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) - 要添加到数据集中的记录列表。
filepath (str) – 包含记录的文件路径。 (默认:
"records/records.json")kwargs (Any) – 额外的关键字参数。
- abstract create_dataset(name: str, **kwargs: Any) str[来源]#
创建一个新的数据集。
- Parameters:
name (str) – 数据集的名称。
kwargs (Any) – 额外的关键字参数。
- Returns:
创建的数据集的URL。
- Return type:
字符串
- abstract delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#
删除一个数据集。
- Parameters:
dataset_name (str) - 要删除的数据集名称。
kwargs (Any) – 额外的关键字参数。
- abstract delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
从数据集中删除一条记录。
- Parameters:
dataset_name (str) – 数据集的名称。
record_id (str) – 要删除的记录ID。
filepath (str) – 包含记录的文件路径。 (默认:
"records/records.json")kwargs (Any) – 额外的关键字参数。
- abstract list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#
列出当前用户的所有数据集。
- Parameters:
username (str) – 要列出数据集的用户名。
limit (int) – 要列出的数据集的最大数量。 (默认值:
100)kwargs (Any) – 额外的关键字参数。
- Returns:
数据集ID列表。
- Return type:
List[str]
camel.datahubs.huggingface 模块#
- class camel.datahubs.huggingface.HuggingFaceDatasetManager(token: str | None = None)[来源]#
-
Hugging Face数据集的管理器。该类提供了在Hugging Face Hub上创建、添加、更新、删除和列出数据集记录的方法。
- Parameters:
token (str) – Hugging Face API令牌。如果未提供,将从环境变量HF_TOKEN中读取该令牌。
- add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
向Hugging Face Hub上的数据集添加记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) - 要添加到数据集中的记录列表。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError – 如果数据集已存在记录文件。
- create_dataset(name: str, private: bool = False, **kwargs: Any) str[来源]#
在Hugging Face Hub上创建一个新的数据集。
- Parameters:
name (str) – 数据集的名称。
private (bool) – 数据集是否应为私有。默认为False。
kwargs (Any) – 额外的关键字参数。
- Returns:
创建的数据集的URL。
- Return type:
字符串
- create_dataset_card(dataset_name: str, description: str, license: str | None = None, version: str | None = None, tags: List[str] | None = None, authors: List[str] | None = None, size_category: List[str] | None = None, language: List[str] | None = None, task_categories: List[str] | None = None, content: str | None = None) None[来源]#
- Creates and uploads a dataset card to the Hugging Face Hub in YAML
格式。
- Parameters:
dataset_name (str) – 数据集的名称。
description (str) - 数据集的描述。
license (str) – 数据集的许可证。(默认:
None)version (str) – 数据集的版本号。(默认值:
None)tags (list) – 数据集的标签列表。(默认:
None)authors (list) – 数据集作者列表。(默认值:
None)size_category (list) – 数据集的大小类别。(默认:
None)language (列表) – 数据集所使用的语言列表。(默认值:
None)task_categories (list) – 任务类别列表。(默认值:
None)content (str) - 用户想要添加到数据集卡片中的自定义markdown内容。(默认值:
None)
- delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#
从Hugging Face Hub删除一个数据集。
- Parameters:
dataset_name (str) - 要删除的数据集名称。
kwargs (Any) – 额外的关键字参数。
- delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
从数据集中删除一条记录。
- Parameters:
dataset_name (str) – 数据集的名称。
record_id (str) – 要删除的记录ID。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError - 如果数据集没有可删除记录的文件。
- list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#
列出当前用户的所有数据集。
- Parameters:
username (str) – 要列出数据集的用户名。
limit (int) – 要列出的数据集的最大数量。 (默认值:
100)kwargs (Any) – 额外的关键字参数。
- Returns:
数据集ID列表。
- Return type:
List[str]
- list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#
列出数据集中的所有记录。
- Parameters:
dataset_name (str) – 数据集的名称。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Returns:
数据集中的记录列表。
- Return type:
列表[Record]
- update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
更新Hugging Face Hub数据集中的记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) – 要更新到数据集中的记录列表。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError - 如果数据集没有可用于更新记录的现有文件。
camel.datahubs.models 模块#
- class camel.datahubs.models.Record(*, id: str | None = None, metadata: Dict[str, Any] | None = None, content: Dict[str, Any] | None = None, **extra_data: Any)[来源]#
基类:
BaseModel- content: Dict[str, Any] | None#
- id: str | None#
- metadata: Dict[str, Any] | None#
- model_config: ClassVar[ConfigDict] = {'extra': 'allow'}#
模型的配置,应该是一个符合[ConfigDict][pydantic.config.ConfigDict]的字典。
模块内容#
- class camel.datahubs.BaseDatasetManager[来源]#
基类:
ABC数据集管理器的抽象基类。
- abstract add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
向数据集中添加记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) - 要添加到数据集中的记录列表。
filepath (str) – 包含记录的文件路径。 (默认:
"records/records.json")kwargs (Any) – 额外的关键字参数。
- abstract create_dataset(name: str, **kwargs: Any) str[来源]#
创建一个新的数据集。
- Parameters:
name (str) – 数据集的名称。
kwargs (Any) – 额外的关键字参数。
- Returns:
创建的数据集的URL。
- Return type:
字符串
- abstract delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#
删除一个数据集。
- Parameters:
dataset_name (str) - 要删除的数据集名称。
kwargs (Any) – 额外的关键字参数。
- abstract delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
从数据集中删除一条记录。
- Parameters:
dataset_name (str) – 数据集的名称。
record_id (str) – 要删除的记录ID。
filepath (str) – 包含记录的文件路径。 (默认:
"records/records.json")kwargs (Any) – 额外的关键字参数。
- abstract list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#
列出当前用户的所有数据集。
- Parameters:
username (str) – 要列出数据集的用户名。
limit (int) – 要列出的数据集的最大数量。 (默认值:
100)kwargs (Any) – 额外的关键字参数。
- Returns:
数据集ID列表。
- Return type:
List[str]
- class camel.datahubs.HuggingFaceDatasetManager(token: str | None = None)[来源]#
-
Hugging Face数据集的管理器。该类提供了在Hugging Face Hub上创建、添加、更新、删除和列出数据集记录的方法。
- Parameters:
token (str) – Hugging Face API令牌。如果未提供,将从环境变量HF_TOKEN中读取该令牌。
- add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
向Hugging Face Hub上的数据集添加记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) - 要添加到数据集中的记录列表。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError – 如果数据集已存在记录文件。
- create_dataset(name: str, private: bool = False, **kwargs: Any) str[来源]#
在Hugging Face Hub上创建一个新的数据集。
- Parameters:
name (str) – 数据集的名称。
private (bool) – 数据集是否应为私有。默认为False。
kwargs (Any) – 额外的关键字参数。
- Returns:
创建的数据集的URL。
- Return type:
字符串
- create_dataset_card(dataset_name: str, description: str, license: str | None = None, version: str | None = None, tags: List[str] | None = None, authors: List[str] | None = None, size_category: List[str] | None = None, language: List[str] | None = None, task_categories: List[str] | None = None, content: str | None = None) None[来源]#
- Creates and uploads a dataset card to the Hugging Face Hub in YAML
格式。
- Parameters:
dataset_name (str) – 数据集的名称。
description (str) - 数据集的描述。
license (str) – 数据集的许可证。(默认:
None)version (str) – 数据集的版本号。(默认值:
None)tags (list) – 数据集的标签列表。(默认:
None)authors (list) – 数据集作者列表。(默认值:
None)size_category (list) – 数据集的大小类别。(默认:
None)language (list) – 数据集所使用的语言列表。(默认值:
None)task_categories (list) – 任务类别列表。(默认值:
None)content (str) - 用户想要添加到数据集卡片中的自定义markdown内容。(默认值:
None)
- delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#
从Hugging Face Hub删除一个数据集。
- Parameters:
dataset_name (str) - 要删除的数据集名称。
kwargs (Any) – 额外的关键字参数。
- delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
从数据集中删除一条记录。
- Parameters:
dataset_name (str) – 数据集的名称。
record_id (str) – 要删除的记录ID。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError - 如果数据集没有可删除记录的文件。
- list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#
列出当前用户的所有数据集。
- Parameters:
username (str) – 要列出数据集的用户名。
limit (int) – 要列出的数据集的最大数量。 (默认值:
100)kwargs (Any) – 额外的关键字参数。
- Returns:
数据集ID列表。
- Return type:
List[str]
- list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#
列出数据集中的所有记录。
- Parameters:
dataset_name (str) – 数据集的名称。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Returns:
数据集中的记录列表。
- Return type:
列表[Record]
- update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#
更新Hugging Face Hub数据集中的记录。
- Parameters:
dataset_name (str) – 数据集的名称。
records (List[Record]) – 要更新到数据集中的记录列表。
filepath (str) - 包含记录的文件路径。
kwargs (Any) – 额外的关键字参数。
- Raises:
ValueError - 如果数据集没有可以更新记录的文件。
- class camel.datahubs.Record(*, id: str | None = None, metadata: Dict[str, Any] | None = None, content: Dict[str, Any] | None = None, **extra_data: Any)[来源]#
基类:
BaseModel- content: Dict[str, Any] | None#
- id: str | None#
- metadata: Dict[str, Any] | None#
- model_config: ClassVar[ConfigDict] = {'extra': 'allow'}#
模型的配置,应该是一个符合[ConfigDict][pydantic.config.ConfigDict]的字典。