跳过内容

图像和音频输入

一些大型语言模型现在能够理解音频和图像内容。

图像输入

信息

某些模型不支持图像输入。请查看模型的文档以确认其是否支持图像输入。

如果您有图像的直接 URL,您可以使用 ImageUrl

main.py
from pydantic_ai import Agent, ImageUrl

agent = Agent(model='openai:gpt-4o')
result = agent.run_sync(
    [
        'What company is this logo from?',
        ImageUrl(url='https://iili.io/3Hs4FMg.png'),
    ]
)
print(result.data)
#> This is the logo for Pydantic, a data validation and settings management library in Python.

如果您本地有图片,您也可以使用 BinaryContent:

main.py
import httpx

from pydantic_ai import Agent, BinaryContent

image_response = httpx.get('https://iili.io/3Hs4FMg.png')  # Pydantic logo

agent = Agent(model='openai:gpt-4o')
result = agent.run_sync(
    [
        'What company is this logo from?',
        BinaryContent(data=image_response.content, media_type='image/png'),  # (1)!
    ]
)
print(result.data)
#> This is the logo for Pydantic, a data validation and settings management library in Python.
  1. 为了确保示例可以运行,我们从网络下载这个图像,但您也可以使用 Path().read_bytes() 来读取本地文件的内容。

音频输入

信息

某些模型不支持音频输入。请查看模型的文档以确认其是否支持音频输入。

您可以使用AudioUrlBinaryContent提供音频输入。该过程与上面的示例类似。