跳转到内容

多模态解析

您可以使用供应商多模态模型来处理文档提取。这比常规解析更昂贵,但能为某些文档获得更好的结果。

支持的模型列表请参见此处

使用此模式时,将绕过LlamaParse的常规解析,转而采用以下流程:

  • 您的文档每一页都会截取一张屏幕截图
  • 每个页面截图都会发送给多模态模型,并附带指令以提取为 markdown
  • 每个页面的最终Markdown内容会被整合到最终结果中。


要使用多模态模式,请将 use_vendor_multimodal_model 设置为 True。然后您可以通过将 vendor_multimodal_model_name 设置为您想要使用的模型(例如:anthropic-sonnet-3.5)来选择要使用的模型。

parser = LlamaParse(
use_vendor_multimodal_model=True,
vendor_multimodal_model_name="anthropic-sonnet-3.5"
)


当使用多模态模式时,您可以提供自己的供应商密钥来解析文档。如果选择这样做,LlamaParse将仅对每页收取1个积分(0.3美分)。

使用您自己的API密钥将产生模型提供商的一些费用,如果您没有较高的使用限制,可能导致页面/文档处理失败。

要使用您自己的API密钥,请将参数 vendor_multimodal_api_key 设置为您自己的密钥值。

parser = LlamaParse(
parse_mode="parse_page_with_lvm",
model="openai-gpt4o",
vendor_multimodal_api_key="sk-proj-xxxxxx"
)


关于欧盟SAAS中Gemini模型的说明:在我们的欧盟SAAS中,您需要提供vertex AI证书(作为字符串),用于欧洲西部1区谷歌区域的有效项目。

您还可以使用以下参数来使用您自己的 Azure 模型部署:

parser = LlamaParse(
use_vendor_multimodal_model=True,
azure_openai_deployment_name="llamaparse-gpt-4o",
azure_openai_endpoint="https://<org>.openai.azure.com/openai/deployments/<dep>/chat/completions?api-version=<ver>",
azure_openai_api_version="2024-02-15-preview",
azure_openai_key="xxx"
)





通过将 gpt4o_mode 设置为 True,LlamaParse 将使用 OpenAI GPT4-o 进行文档重构。此方法仍然有效,但我们建议改用 use_vendor_multimodal_modelTrue 以及 vendor_multimodal_model_nameopenai-gpt4o

参数 gpt4o_api_key 仍然有效,但我们建议改用参数 vendor_multimodal_api_key