Skip to main content
Ctrl+K
lmdeploy - Home lmdeploy - Home

开始使用

  • 安装
  • 快速开始
  • 在其他平台上
    • 开始使用华为昇腾(Atlas 800T A2)

模型

  • 支持的模型

大型语言模型(LLMs)部署

  • 离线推理管道
  • OpenAI 兼容服务器
  • Tools Calling
  • Serving LoRA
  • WebUI 演示
  • 请求分发服务器

视觉-语言模型(VLMs) 部署

  • 离线推理管道
  • OpenAI 兼容服务器
  • 视觉-语言模型
    • LLaVA
    • InternVL
    • InternLM-XComposer-2.5
    • CogVLM
    • MiniCPM-V
    • Phi-3 Vision
    • Mllama
    • Qwen2-VL
    • Molmo

量化

  • AWQ/GPTQ
  • SmoothQuant
  • INT4/INT8 KV 缓存

基准测试

  • Profile Token 延迟和吞吐量
  • Profile Request Throughput
  • Profile API Server
  • 使用OpenCompass评估LLMs

高级指南

  • TurboMind的架构
  • lmdeploy.pytorch的架构
  • lmdeploy.pytorch 新模型支持
  • 上下文长度外推
  • 自定义聊天模板
  • 如何调试Turbomind
  • 结构化输出
  • PyTorchEngine 多线程

API 参考

  • 推理管道
  • Repository
  • Show source
  • Suggest edit
  • Open issue
  • .rst

视觉-语言模型

视觉-语言模型#

示例

  • LLaVA
    • 安装
    • 离线推理
    • 在线服务
  • InternVL
    • 安装
    • 离线推理
    • 在线服务
  • InternLM-XComposer-2.5
    • Introduction
    • 快速开始
    • Lora Model
    • 量化
    • 更多示例
  • CogVLM
    • Introduction
    • 快速开始
  • MiniCPM-V
    • 安装
    • 离线推理
    • 在线服务
  • Phi-3 Vision
    • Introduction
    • 安装
    • 离线推理
    • 在线服务
  • Mllama
    • Introduction
    • 安装
    • 离线推理
    • 在线服务
  • Qwen2-VL
    • 安装
    • 离线推理
    • 在线服务
  • Molmo
    • 安装
    • 离线推理
    • 在线服务

上一页

OpenAI 兼容服务器

下一步

LLaVA

由LMDeploy作者

© 版权所有 2021-2024, OpenMMLab.

最后更新于2025年1月3日。