Sampling - Model Context Protocol

协议版本: draft

Model Context Protocol (MCP)通过一种标准化方式让服务器能经由客户端向语言模型请求LLM采样（"补全"或"生成"）。这一流程让客户端保持对模型访问、选择与权限的控制，同时使服务器能利用AI能力——无需服务器API密钥。服务器可请求基于文本、音频或图像的交互，并可选择在其提示中包含来自MCP服务器的上下文。

用户交互模型

MCP中的采样功能允许服务器实现智能体行为，通过使LLM调用可以在其他MCP服务器功能中嵌套执行。实现方式可自由选择任何适合其需求的接口模式来公开采样——协议本身并不强制规定任何特定的用户交互模型。

为了确保信任、安全性和防护性，应当始终有人在回路中具备拒绝采样请求的能力。应用程序应当:

提供直观易用的用户界面，方便审阅采样请求
允许用户在发送前查看和编辑提示
在投送之前展示生成的响应以供审阅

能力

支持采样的客户端必须在 initialization 过程中声明 sampling 能力:

{
  "capabilities": {
    "sampling": {}
  }
}

协议消息

创建信息

要请求生成语言模型，服务器发送一个sampling/createMessage请求： 请求：

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What is the capital of France?"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "You are a helpful assistant.",
    "maxTokens": 100
  }
}

响应：响应：

{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "The capital of France is Paris."
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}

消息流

数据类型

消息

采样消息可以包含：

文本内容

{
  "type": "text",
  "text": "The message content"
}

图像内容

{
  "type": "image",
  "data": "base64-encoded-image-data",
  "mimeType": "image/jpeg"
}

音频内容

{
  "type": "audio",
  "data": "base64-encoded-audio-data",
  "mimeType": "audio/wav"
}

模型偏好设置

MCP中的模型选择需要谨慎抽象，因为服务器和客户端可能使用不同的AI供应商，它们提供的模型也各不相同。服务器无法简单地通过名称请求特定模型，因为客户端可能无法访问该确切模型，或者可能倾向于使用不同供应商的等效模型。为解决这个问题，MCP实现了一个偏好系统，将抽象能力优先级与可选的模型提示相结合：

能力优先级

服务端通过三个标准化优先级值(0-1)来表达其需求：

costPriority: 最小化成本的重要性如何？较高的值更青睐更便宜的模型。
speedPriority: 低延迟的重要性如何？较高值更倾向于选择速度更快的模型。
intelligencePriority: 高级能力有多重要？越高的值越偏好性能更强的模型。

模型提示

尽管优先级帮助根据特性选择模型，但hints允许服务器推荐特定的模型或模型族：

提示被视为可以灵活匹配模型名称的子字符串
多个提示根据偏好顺序进行评估。
客户端可以将提示映射到来自不同提供者的等效模型
提示仅供参考——客户端拥有最终模型选择权

例如：

{
  "hints": [
    { "name": "claude-3-sonnet" }, // Prefer Sonnet-class models
    { "name": "claude" } // Fall back to any Claude model
  ],
  "costPriority": 0.3, // Cost is less important
  "speedPriority": 0.8, // Speed is very important
  "intelligencePriority": 0.5 // Moderate capability needs
}

客户端处理这些偏好，从其可用选项中选择合适的模型。例如，如果客户端无法访问Claude模型但可以使用Gemini，它可能会基于类似能力将sonnet提示映射至gemini-1.5-pro。

错误处理

客户端应当针对常见失败情况返回错误：示例错误：

{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "User rejected sampling request"
  }
}

安全注意事项

客户端应该实现用户批准控制
双方应该验证消息内容
客户端应遵循模型偏好提示
客户端应当实现速率限制
双方必须妥善处理敏感数据

基础协议

客户端特性

服务器特性

采样

用户交互模型

能力

协议消息

创建信息

消息流

数据类型

消息

文本内容

图像内容

音频内容

模型偏好设置

能力优先级

模型提示

错误处理

安全注意事项

基础协议

客户端特性

服务器特性

​用户交互模型

​能力

​协议消息

​创建信息

​消息流

​数据类型

​消息

​文本内容

​图像内容

​音频内容

​模型偏好设置

​能力优先级

​模型提示

​错误处理

​安全注意事项

用户交互模型

能力

协议消息

创建信息

消息流

数据类型

消息

文本内容

图像内容

音频内容

模型偏好设置

能力优先级

模型提示

错误处理

安全注意事项