多模态解析
您可以使用供应商多模态模型来处理文档提取。这比常规解析更昂贵,但能为某些文档获得更好的结果。
支持的模型列表请参见此处。
使用此模式时,将绕过LlamaParse的常规解析,转而采用以下流程:
- 您的文档每一页都会截取一张屏幕截图
- 每个页面截图都会发送给多模态模型,并附带指令以提取为
markdown - 每个页面的最终Markdown内容会被整合到最终结果中。
要使用多模态模式,请将 use_vendor_multimodal_model 设置为 True。然后您可以通过将 vendor_multimodal_model_name 设置为您想要使用的模型(例如:anthropic-sonnet-3.5)来选择要使用的模型。
parser = LlamaParse( use_vendor_multimodal_model=True, vendor_multimodal_model_name="anthropic-sonnet-3.5")curl -X 'POST' \ 'https://api.cloud.llamaindex.ai/api/v1/parsing/upload' \ -H 'accept: application/json' \ -H 'Content-Type: multipart/form-data' \ -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \ --form 'use_vendor_multimodal_model=True' \ --form 'vendor_multimodal_model_name="anthropic-sonnet-3.5"' \ -F 'file=@/path/to/your/file.pdf;type=application/pdf'当使用多模态模式时,您可以提供自己的供应商密钥来解析文档。如果选择这样做,LlamaParse将仅对每页收取1个积分(0.3美分)。
使用您自己的API密钥将产生模型提供商的一些费用,如果您没有较高的使用限制,可能导致页面/文档处理失败。
要使用您自己的API密钥,请将参数 vendor_multimodal_api_key 设置为您自己的密钥值。
parser = LlamaParse( parse_mode="parse_page_with_lvm", model="openai-gpt4o", vendor_multimodal_api_key="sk-proj-xxxxxx")curl -X 'POST' \ 'https://api.cloud.llamaindex.ai/api/v1/parsing/upload' \ -H 'accept: application/json' \ -H 'Content-Type: multipart/form-data' \ -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \ --form 'parse_mode="parse_page_with_lvm"' \ --form 'model="openai-gpt4o"' \ --form 'vendor_multimodal_api_key="sk-proj-xxxxxx"' \ -F 'file=@/path/to/your/file.pdf;type=application/pdf'关于欧盟SAAS中Gemini模型的说明:在我们的欧盟SAAS中,您需要提供vertex AI证书(作为字符串),用于欧洲西部1区谷歌区域的有效项目。
自定义 Azure 模型
Section titled “Custom Azure Model”您还可以使用以下参数来使用您自己的 Azure 模型部署:
parser = LlamaParse( use_vendor_multimodal_model=True, azure_openai_deployment_name="llamaparse-gpt-4o", azure_openai_endpoint="https://<org>.openai.azure.com/openai/deployments/<dep>/chat/completions?api-version=<ver>", azure_openai_api_version="2024-02-15-preview", azure_openai_key="xxx")curl -X 'POST' \ 'https://api.cloud.llamaindex.ai/api/v1/parsing/upload' \ -H 'accept: application/json' \ -H 'Content-Type: multipart/form-data' \ -H "Authorization: Bearer $LLAMA_CLOUD_API_KEY" \ --form 'use_vendor_multimodal_model="true"' \ --form 'azure_openai_deployment_name="llamaparse-gpt-4o"' \ --form 'azure_openai_endpoint="https://<org>.openai.azure.com/openai/deployments/<dep>/chat/completions?api-version=<ver>"' \ --form 'azure_openai_api_version="2024-02-15-preview"' \ --form 'azure_openai_key="xxx"' \ -F 'file=@/path/to/your/file.pdf;type=application/pdf'GPT-4-o 模式(已弃用)
Section titled “GPt4-o mode (Deprecated)”通过将 gpt4o_mode 设置为 True,LlamaParse 将使用 OpenAI GPT4-o 进行文档重构。此方法仍然有效,但我们建议改用 use_vendor_multimodal_model 到 True 以及 vendor_multimodal_model_name 到 openai-gpt4o。
参数 gpt4o_api_key 仍然有效,但我们建议改用参数 vendor_multimodal_api_key。