camel.datahubs 包

本页内容

camel.datahubs 包#

子模块#

camel.datahubs.base 模块#

class camel.datahubs.base.BaseDatasetManager[来源]#

基类: ABC

数据集管理器的抽象基类。

abstract add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

向数据集中添加记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) - 要添加到数据集中的记录列表。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract create_dataset(name: str, **kwargs: Any) str[来源]#

创建一个新的数据集。

Parameters:
  • name (str) – 数据集的名称。

  • kwargs (Any) – 额外的关键字参数。

Returns:

创建的数据集的URL。

Return type:

字符串

abstract delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#

删除一个数据集。

Parameters:
  • dataset_name (str) - 要删除的数据集名称。

  • kwargs (Any) – 额外的关键字参数。

abstract delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

从数据集中删除一条记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • record_id (str) – 要删除的记录ID。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#

列出当前用户的所有数据集。

Parameters:
  • username (str) – 要列出数据集的用户名。

  • limit (int) – 要列出的数据集的最大数量。 (默认值:100)

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集ID列表。

Return type:

List[str]

abstract list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#

列出数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

更新数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) – 要更新到数据集中的记录列表。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

camel.datahubs.huggingface 模块#

class camel.datahubs.huggingface.HuggingFaceDatasetManager(token: str | None = None)[来源]#

基类: BaseDatasetManager

Hugging Face数据集的管理器。该类提供了在Hugging Face Hub上创建、添加、更新、删除和列出数据集记录的方法。

Parameters:

token (str) – Hugging Face API令牌。如果未提供,将从环境变量HF_TOKEN中读取该令牌。

add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

向Hugging Face Hub上的数据集添加记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) - 要添加到数据集中的记录列表。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError – 如果数据集已存在记录文件。

create_dataset(name: str, private: bool = False, **kwargs: Any) str[来源]#

在Hugging Face Hub上创建一个新的数据集。

Parameters:
  • name (str) – 数据集的名称。

  • private (bool) – 数据集是否应为私有。默认为False。

  • kwargs (Any) – 额外的关键字参数。

Returns:

创建的数据集的URL。

Return type:

字符串

create_dataset_card(dataset_name: str, description: str, license: str | None = None, version: str | None = None, tags: List[str] | None = None, authors: List[str] | None = None, size_category: List[str] | None = None, language: List[str] | None = None, task_categories: List[str] | None = None, content: str | None = None) None[来源]#
Creates and uploads a dataset card to the Hugging Face Hub in YAML

格式。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • description (str) - 数据集的描述。

  • license (str) – 数据集的许可证。(默认: None)

  • version (str) – 数据集的版本号。(默认值: None)

  • tags (list) – 数据集的标签列表。(默认: None)

  • authors (list) – 数据集作者列表。(默认值: None)

  • size_category (list) – 数据集的大小类别。(默认: None)

  • language (列表) – 数据集所使用的语言列表。(默认值: None)

  • task_categories (list) – 任务类别列表。(默认值: None)

  • content (str) - 用户想要添加到数据集卡片中的自定义markdown内容。(默认值: None)

delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#

从Hugging Face Hub删除一个数据集。

Parameters:
  • dataset_name (str) - 要删除的数据集名称。

  • kwargs (Any) – 额外的关键字参数。

delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

从数据集中删除一条记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • record_id (str) – 要删除的记录ID。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError - 如果数据集没有可删除记录的文件。

list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#

列出当前用户的所有数据集。

Parameters:
  • username (str) – 要列出数据集的用户名。

  • limit (int) – 要列出的数据集的最大数量。 (默认值: 100)

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集ID列表。

Return type:

List[str]

list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#

列出数据集中的所有记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集中的记录列表。

Return type:

列表[Record]

update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

更新Hugging Face Hub数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) – 要更新到数据集中的记录列表。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError - 如果数据集没有可用于更新记录的现有文件。

camel.datahubs.models 模块#

class camel.datahubs.models.Record(*, id: str | None = None, metadata: Dict[str, Any] | None = None, content: Dict[str, Any] | None = None, **extra_data: Any)[来源]#

基类: BaseModel

content: Dict[str, Any] | None#
id: str | None#
metadata: Dict[str, Any] | None#
model_config: ClassVar[ConfigDict] = {'extra': 'allow'}#

模型的配置,应该是一个符合[ConfigDict][pydantic.config.ConfigDict]的字典。

模块内容#

class camel.datahubs.BaseDatasetManager[来源]#

基类: ABC

数据集管理器的抽象基类。

abstract add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

向数据集中添加记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) - 要添加到数据集中的记录列表。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract create_dataset(name: str, **kwargs: Any) str[来源]#

创建一个新的数据集。

Parameters:
  • name (str) – 数据集的名称。

  • kwargs (Any) – 额外的关键字参数。

Returns:

创建的数据集的URL。

Return type:

字符串

abstract delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#

删除一个数据集。

Parameters:
  • dataset_name (str) - 要删除的数据集名称。

  • kwargs (Any) – 额外的关键字参数。

abstract delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

从数据集中删除一条记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • record_id (str) – 要删除的记录ID。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#

列出当前用户的所有数据集。

Parameters:
  • username (str) – 要列出数据集的用户名。

  • limit (int) – 要列出的数据集的最大数量。 (默认值:100)

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集ID列表。

Return type:

List[str]

abstract list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#

列出数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

abstract update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

更新数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) – 要更新到数据集中的记录列表。

  • filepath (str) – 包含记录的文件路径。 (默认:"records/records.json")

  • kwargs (Any) – 额外的关键字参数。

class camel.datahubs.HuggingFaceDatasetManager(token: str | None = None)[来源]#

基类: BaseDatasetManager

Hugging Face数据集的管理器。该类提供了在Hugging Face Hub上创建、添加、更新、删除和列出数据集记录的方法。

Parameters:

token (str) – Hugging Face API令牌。如果未提供,将从环境变量HF_TOKEN中读取该令牌。

add_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

向Hugging Face Hub上的数据集添加记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) - 要添加到数据集中的记录列表。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError – 如果数据集已存在记录文件。

create_dataset(name: str, private: bool = False, **kwargs: Any) str[来源]#

在Hugging Face Hub上创建一个新的数据集。

Parameters:
  • name (str) – 数据集的名称。

  • private (bool) – 数据集是否应为私有。默认为False。

  • kwargs (Any) – 额外的关键字参数。

Returns:

创建的数据集的URL。

Return type:

字符串

create_dataset_card(dataset_name: str, description: str, license: str | None = None, version: str | None = None, tags: List[str] | None = None, authors: List[str] | None = None, size_category: List[str] | None = None, language: List[str] | None = None, task_categories: List[str] | None = None, content: str | None = None) None[来源]#
Creates and uploads a dataset card to the Hugging Face Hub in YAML

格式。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • description (str) - 数据集的描述。

  • license (str) – 数据集的许可证。(默认: None)

  • version (str) – 数据集的版本号。(默认值: None)

  • tags (list) – 数据集的标签列表。(默认: None)

  • authors (list) – 数据集作者列表。(默认值: None)

  • size_category (list) – 数据集的大小类别。(默认: None)

  • language (list) – 数据集所使用的语言列表。(默认值: None)

  • task_categories (list) – 任务类别列表。(默认值: None)

  • content (str) - 用户想要添加到数据集卡片中的自定义markdown内容。(默认值: None)

delete_dataset(dataset_name: str, **kwargs: Any) None[来源]#

从Hugging Face Hub删除一个数据集。

Parameters:
  • dataset_name (str) - 要删除的数据集名称。

  • kwargs (Any) – 额外的关键字参数。

delete_record(dataset_name: str, record_id: str, filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

从数据集中删除一条记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • record_id (str) – 要删除的记录ID。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError - 如果数据集没有可删除记录的文件。

list_datasets(username: str, limit: int = 100, **kwargs: Any) List[str][来源]#

列出当前用户的所有数据集。

Parameters:
  • username (str) – 要列出数据集的用户名。

  • limit (int) – 要列出的数据集的最大数量。 (默认值: 100)

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集ID列表。

Return type:

List[str]

list_records(dataset_name: str, filepath: str = 'records/records.json', **kwargs: Any) List[记录][来源]#

列出数据集中的所有记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Returns:

数据集中的记录列表。

Return type:

列表[Record]

update_records(dataset_name: str, records: List[记录], filepath: str = 'records/records.json', **kwargs: Any) None[来源]#

更新Hugging Face Hub数据集中的记录。

Parameters:
  • dataset_name (str) – 数据集的名称。

  • records (List[Record]) – 要更新到数据集中的记录列表。

  • filepath (str) - 包含记录的文件路径。

  • kwargs (Any) – 额外的关键字参数。

Raises:

ValueError - 如果数据集没有可以更新记录的文件。

class camel.datahubs.Record(*, id: str | None = None, metadata: Dict[str, Any] | None = None, content: Dict[str, Any] | None = None, **extra_data: Any)[来源]#

基类:BaseModel

content: Dict[str, Any] | None#
id: str | None#
metadata: Dict[str, Any] | None#
model_config: ClassVar[ConfigDict] = {'extra': 'allow'}#

模型的配置,应该是一个符合[ConfigDict][pydantic.config.ConfigDict]的字典。