生成

TensorRT-LLM 高级 API 运行器的封装。

LLM

一个用于LLM分析和验证的tensorrt_llm.llmapi.llm.LLM的封装器。

class LLM

基础:LLM

一个用于LLM分析和验证的tensorrt_llm.llmapi.llm.LLM的封装器。

__init__(engine_dir, tokenizer=None, kv_cache_config={}, medusa_choices=None)

初始化LLM运行器类。

Parameters:
generate_context_logits(prompts, temperature=1.0, top_p=None)

基于输入提示生成上下文逻辑值。

Parameters:
  • 提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或令牌列表。

  • temperature (float) – 采样温度。

  • top_p (float) – 核心采样参数。

  • keep_input_prompt – 设置为在输出中包含输入提示。

Returns:

上下文logits的张量列表。

Return type:

列表[张量]

generate_text(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)

根据输入的提示生成文本。

Parameters:
  • 提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或标记列表。

  • max_new_tokens (int) – 最大输出令牌长度。

  • temperature (float) – 采样温度

  • keep_input_prompt (bool) – 设置为在输出中包含输入提示。

  • stop_words (List[str]) – 生成器将停止的单词列表。

  • top_p (float) –

Returns:

如果max_beam_width为1,则输出文本字符串列表;否则为形状为[batch, beam]的二维列表。

Return type:

列表[字符串] | 列表[列表[字符串]]

generate_tokens(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)

根据输入的提示生成令牌。

Parameters:
  • 提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或令牌列表。

  • max_new_tokens (int) – 最大输出令牌长度。

  • temperature (float) – 采样温度。

  • top_p (float) – 核心采样参数。

  • keep_input_prompt (bool) – 设置为在输出中包含输入提示。

  • stop_words (List[str]) – 生成停止的单词列表。

Returns:

如果max_beam_width为1,则输出一个令牌列表的列表,或者一个形状为[batch, beam, sequence_len]的3D列表。

Return type:

列表[列表[整数]] | 列表[列表[列表[整数]]]

property max_beam_width

从LLM实例中获取最大光束宽度。

property max_input_len

从LLM实例获取最大输入长度。