MultiModalPredictor.extract_embedding

MultiModalPredictor.extract_embedding(data: DataFrame | dict | list, id_mappings: Dict[str, Dict] | Dict[str, Series] | None = None, return_masks: bool | None = False, as_tensor: bool | None = False, as_pandas: bool | None = False, realtime: bool | None = False, signature: str | None = None)[source]

为每个样本提取特征,即在提供的pd.DataFrame data中的每一行。

Parameters:
  • data – 用于提取嵌入的数据。应包含与训练数据集相同的列名,并遵循相同的格式(除了label列)。

  • id_mappings – Id-to-content mappings. The contents can be text, image, etc. This is used when data contain the query/response identifiers instead of their contents.

  • return_masks – 如果为真,返回一个掩码字典,其键与特征字典中的键相同。 如果样本在特征列 image_0 中有空输入,则该样本在键 image_0 下的掩码为0。

  • as_tensor – 是否返回一个Pytorch张量。

  • as_pandas – 是否将输出作为pandas DataFrame返回(True)或作为numpy数组返回(False)。

  • realtime – Whether to do realtime inference, which is efficient for small data (default False). If provided None, we would infer it on based on the data modalities and sample number.

  • signature – 当使用匹配器时,它可以是查询或响应。

Returns:

  • 嵌入数组,对应于给定数据中的每一行。

  • 它将具有形状(#samples, D),其中嵌入维度D由神经网络的架构决定。

  • 由神经网络的架构决定。