生成
TensorRT-LLM 高级 API 运行器的封装。
类
一个用于LLM分析和验证的 |
- class LLM
基础:
LLM一个用于LLM分析和验证的
tensorrt_llm.llmapi.llm.LLM的封装器。- __init__(engine_dir, tokenizer=None, kv_cache_config={}, medusa_choices=None)
初始化LLM运行器类。
- Parameters:
engine_dir (str | Path) – TensorRT-LLM引擎的目录路径。
tokenizer (str | Path | tensorrt_llm.llmapi.tokenizer.TokenizerBase | None) – 分词器。例如,来自Huggingface模型的分词器。
kv_cache_config (Dict[str, int | float]) – kv缓存配置为一个字典。请参考 https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/performance/perf-best-practices.md
medusa_choices (任何) –
- generate_context_logits(prompts, temperature=1.0, top_p=None)
基于输入提示生成上下文逻辑值。
- Parameters:
提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或令牌列表。
temperature (float) – 采样温度。
top_p (float) – 核心采样参数。
keep_input_prompt – 设置为在输出中包含输入提示。
- Returns:
上下文logits的张量列表。
- Return type:
列表[张量]
- generate_text(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)
根据输入的提示生成文本。
- Parameters:
提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或标记列表。
max_new_tokens (int) – 最大输出令牌长度。
temperature (float) – 采样温度
keep_input_prompt (bool) – 设置为在输出中包含输入提示。
stop_words (List[str]) – 生成器将停止的单词列表。
top_p (float) –
- Returns:
如果max_beam_width为1,则输出文本字符串列表;否则为形状为[batch, beam]的二维列表。
- Return type:
列表[字符串] | 列表[列表[字符串]]
- generate_tokens(prompts, max_new_tokens, temperature=1.0, top_p=None, keep_input_prompt=True, stop_words=None)
根据输入的提示生成令牌。
- Parameters:
提示 (可迭代[字符串] | 可迭代[列表[整数]]) – 输入的提示。可以是字符串列表或令牌列表。
max_new_tokens (int) – 最大输出令牌长度。
temperature (float) – 采样温度。
top_p (float) – 核心采样参数。
keep_input_prompt (bool) – 设置为在输出中包含输入提示。
stop_words (List[str]) – 生成停止的单词列表。
- Returns:
如果max_beam_width为1,则输出一个令牌列表的列表,或者一个形状为[batch, beam, sequence_len]的3D列表。
- Return type:
列表[列表[整数]] | 列表[列表[列表[整数]]]
- property max_beam_width
从LLM实例中获取最大光束宽度。
- property max_input_len
从LLM实例获取最大输入长度。