Skip to main content
Ctrl+K
lmdeploy - Home lmdeploy - Home

开始使用

  • 安装
  • 快速开始
  • 在其他平台上
    • 开始使用华为昇腾(Atlas 800T A2)

模型

  • 支持的模型

大型语言模型(LLMs)部署

  • 离线推理管道
  • OpenAI 兼容服务器
  • Tools Calling
  • Serving LoRA
  • WebUI 演示
  • 请求分发服务器

视觉-语言模型(VLMs) 部署

  • 离线推理管道
  • OpenAI 兼容服务器
  • 视觉-语言模型
    • LLaVA
    • InternVL
    • InternLM-XComposer-2.5
    • CogVLM
    • MiniCPM-V
    • Phi-3 Vision
    • Mllama
    • Qwen2-VL
    • Molmo

量化

  • AWQ/GPTQ
  • SmoothQuant
  • INT4/INT8 KV 缓存

基准测试

  • Profile Token 延迟和吞吐量
  • Profile Request Throughput
  • Profile API Server
  • 使用OpenCompass评估LLMs

高级指南

  • TurboMind的架构
  • lmdeploy.pytorch的架构
  • lmdeploy.pytorch 新模型支持
  • 上下文长度外推
  • 自定义聊天模板
  • 如何调试Turbomind
  • 结构化输出
  • PyTorchEngine 多线程

API 参考

  • 推理管道
  • Repository
  • Show source
  • Suggest edit
  • Open issue
  • .rst

在其他平台上

在其他平台上#

NPU(华为)

  • 开始使用华为昇腾(Atlas 800T A2)

上一页

快速开始

下一步

开始使用华为昇腾(Atlas 800T A2)

由LMDeploy作者

© 版权所有 2021-2024, OpenMMLab.

最后更新于2025年1月3日。