推理请求
描述对GptManager请求的主要类是InferenceRequest。这被结构化为一个张量映射和一个uint64_t requestId。
下面描述了创建有效InferenceRequest对象所需的输入张量。采样配置参数在C++ GPT 运行时部分中有文档记录。表中的描述已被省略。
名称 |
形状 |
类型 |
描述 |
|---|---|---|---|
|
[1,1] |
|
最大输出令牌数 |
|
[1, num_input_tokens] |
|
输入标记的张量 |
可以提供给InferenceRequest的可选张量如下所示。适用时,指定了默认值:
名称 |
形状 |
类型 |
描述 |
|---|---|---|---|
|
[1] |
|
(默认= |
|
[1] |
|
(默认=1) 此请求的波束宽度;设置为1以进行贪婪采样 |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
采样配置参数: |
|
[1] |
|
结束令牌ID。如果未指定,默认为-1 |
|
[1] |
|
填充标记ID |
|
[1, 词汇大小] |
|
在解码之前,偏差被添加到词汇表中每个标记的logits中。偏差中的正值鼓励标记的采样,而负值则抑制它。值为 |
|
[1, 2, num_bad_words] |
|
不良词汇列表。考虑一个包含两个不良词汇的示例,其中第一个词汇包含标记 |
|
[1, 2, num_stop_words] |
|
停用词列表。有关预期张量形状和内容的描述,请参见 |
|
[1] |
|
P-tuning 提示嵌入表 |
|
[1] |
|
P-tuning 提示词汇大小 |
|
[1] |
|
给定lora_weights的任务ID。此ID预期是全局唯一的。首次使用特定LoRA进行推理时,必须提供 |
|
[num_lora_modules_layers, D x Hi + Ho x D] |
|
LoRA适配器的权重。有关更多信息,请参阅使用GptManager / cpp运行时运行gpt-2b + LoRA。 |
|
[num_lora_modules_layers, 3] |
|
LoRA配置张量。 |
|
[1] |
|
当 |
|
[1] |
|
当 |
|
[1] |
|
当 |
|
[num_draft_tokens] |
|
在生成阶段利用草稿令牌,以在一次飞行批处理迭代中可能生成多个输出令牌 |
|
[num_draft_tokens, vocab_size] |
|
与 |
响应
来自GptManager的响应被格式化为一个张量列表。下表显示了由GptManager(通过SendResponseCallback)返回的输出张量集合:
名称 |
形状 |
类型 |
描述 |
|---|---|---|---|
|
[beam_width, num_output_tokens] |
|
输出标记的张量。当启用 |
|
[beam_width] |
|
输出的令牌数量。当 |
|
[1, beam_width, num_output_tokens] |
|
仅当在输入中设置了 |
|
[1, 光束宽度] |
|
仅当输入中设置了 |
|
[1, num_input_tokens, vocab_size] |
|
仅当在输入中设置了 |
|
[1, beam_width, num_output_tokens, vocab_size] |
|
仅当在输入中设置了 |