多模态解析

您可以使用供应商多模态模型来处理文档提取。这比常规解析更昂贵，但能为某些文档获得更好的结果。

支持的模型列表请参见此处。

使用此模式时，将绕过LlamaParse的常规解析，转而采用以下流程：

您的文档每一页都会截取一张屏幕截图
每个页面截图都会发送给多模态模型，并附带指令以提取为 markdown
每个页面的最终Markdown内容会被整合到最终结果中。

使用多模态模式

要使用多模态模式，请将 use_vendor_multimodal_model 设置为 True。然后您可以通过将 vendor_multimodal_model_name 设置为您想要使用的模型（例如：anthropic-sonnet-3.5）来选择要使用的模型。

Python
应用程序接口

parser = LlamaParse(
  use_vendor_multimodal_model=True,
  vendor_multimodal_model_name="anthropic-sonnet-3.5"
)

curl -X 'POST' \
  'https://api.cloud.llamaindex.ai/api/v1/parsing/upload'  \
  -H 'accept: application/json' \
  -H 'Content-Type: multipart/form-data' \
  -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \
  --form 'use_vendor_multimodal_model=True' \
  --form 'vendor_multimodal_model_name="anthropic-sonnet-3.5"' \
  -F 'file=@/path/to/your/file.pdf;type=application/pdf'

自带LLM密钥（可选）

当使用多模态模式时，您可以提供自己的供应商密钥来解析文档。如果选择这样做，LlamaParse将仅对每页收取1个积分（0.3美分）。

使用您自己的API密钥将产生模型提供商的一些费用，如果您没有较高的使用限制，可能导致页面/文档处理失败。

要使用您自己的API密钥，请将参数 vendor_multimodal_api_key 设置为您自己的密钥值。

Python
应用程序接口

parser = LlamaParse(
  parse_mode="parse_page_with_lvm",
  model="openai-gpt4o",
  vendor_multimodal_api_key="sk-proj-xxxxxx"
)

curl -X 'POST' \
  'https://api.cloud.llamaindex.ai/api/v1/parsing/upload'  \
  -H 'accept: application/json' \
  -H 'Content-Type: multipart/form-data' \
  -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \
  --form 'parse_mode="parse_page_with_lvm"' \
  --form 'model="openai-gpt4o"' \
  --form 'vendor_multimodal_api_key="sk-proj-xxxxxx"' \
  -F 'file=@/path/to/your/file.pdf;type=application/pdf'

关于欧盟SAAS中Gemini模型的说明：在我们的欧盟SAAS中，您需要提供vertex AI证书（作为字符串），用于欧洲西部1区谷歌区域的有效项目。

自定义 Azure 模型

您还可以使用以下参数来使用您自己的 Azure 模型部署：

Python
应用程序接口

parser = LlamaParse(
  use_vendor_multimodal_model=True,
  azure_openai_deployment_name="llamaparse-gpt-4o",
  azure_openai_endpoint="https://<org>.openai.azure.com/openai/deployments/<dep>/chat/completions?api-version=<ver>",
  azure_openai_api_version="2024-02-15-preview",
  azure_openai_key="xxx"
)

curl -X 'POST' \
  'https://api.cloud.llamaindex.ai/api/v1/parsing/upload'  \
  -H 'accept: application/json' \
  -H 'Content-Type: multipart/form-data' \
  -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \
  --form 'use_vendor_multimodal_model="true"' \
  --form 'azure_openai_deployment_name="llamaparse-gpt-4o"' \
  --form 'azure_openai_endpoint="https://<org>.openai.azure.com/openai/deployments/<dep>/chat/completions?api-version=<ver>"' \
  --form 'azure_openai_api_version="2024-02-15-preview"' \
  --form 'azure_openai_key="xxx"' \
  -F 'file=@/path/to/your/file.pdf;type=application/pdf'

GPT-4-o 模式（已弃用）

通过将 gpt4o_mode 设置为 True，LlamaParse 将使用 OpenAI GPT4-o 进行文档重构。此方法仍然有效，但我们建议改用 use_vendor_multimodal_model 到 True 以及 vendor_multimodal_model_name 到 openai-gpt4o。

参数 gpt4o_api_key 仍然有效，但我们建议改用参数 vendor_multimodal_api_key。