欢迎来到LMDeploy的教程!

欢迎来到LMDeploy的教程!#

LMDeploy

LMDeploy 是一个用于压缩、部署和服务大型语言模型的工具包。

Star Watch Fork

LMDeploy 具有以下核心功能:

  • 高效推理:LMDeploy通过引入持久批处理(也称为连续批处理)、分块KV缓存、动态拆分与融合、张量并行、高性能CUDA内核等关键特性,实现了比vLLM高达1.8倍的请求吞吐量。

  • 有效量化: LMDeploy 支持仅权重和 k/v 量化,4 位推理性能比 FP16 高 2.4 倍。量化质量已通过 OpenCompass 评估确认。

  • 轻松分发服务器:利用请求分发服务,LMDeploy 促进了跨多台机器和多张卡的多模型服务的轻松高效部署。

  • 交互式推理模式:通过在多轮对话过程中缓存注意力的k/v,引擎能够记住对话历史,从而避免重复处理历史会话。

  • 卓越的兼容性: LMDeploy 支持同时使用 KV Cache Quant, AWQAutomatic Prefix Caching

文档#

API 参考

索引和表格#