生成

TensorRT-LLM 高级 API 运行器的封装。

类

一个用于LLM分析和验证的tensorrt_llm.llmapi.llm.LLM的封装器。

class LLM

基础：LLM

一个用于LLM分析和验证的tensorrt_llm.llmapi.llm.LLM的封装器。

__init__(engine_dir, tokenizer=None, kv_cache_config={}, medusa_choices=None)

初始化LLM运行器类。

Parameters:

engine_dir (str | Path) – TensorRT-LLM引擎的目录路径。
tokenizer (str | Path | tensorrt_llm.llmapi.tokenizer.TokenizerBase | None) – 分词器。例如，来自Huggingface模型的分词器。
kv_cache_config (Dict[str, int | float]) – kv缓存配置为一个字典。请参考 https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/performance/perf-best-practices.md
medusa_choices (任何) –

generate_context_logits(prompts, temperature=1.0, top_p=None)

基于输入提示生成上下文逻辑值。

Parameters:

Returns:

上下文logits的张量列表。

Return type:

列表[张量]

generate_text(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)

根据输入的提示生成文本。

Parameters:

Returns:

如果max_beam_width为1，则输出文本字符串列表；否则为形状为[batch, beam]的二维列表。

Return type:

列表[字符串] | 列表[列表[字符串]]

generate_tokens(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)

根据输入的提示生成令牌。

Parameters:

Returns:

如果max_beam_width为1，则输出一个令牌列表的列表，或者一个形状为[batch, beam, sequence_len]的3D列表。

Return type:

列表[列表[整数]] | 列表[列表[列表[整数]]]