功能支持

功能支持#

vLLM Ascend的功能支持原则是:与vLLM保持一致。我们也在积极与社区合作以加速支持。

vLLM Ascend 提供了 vLLM 中大多数功能的完整支持,除了一些限制外,其使用方式与 vLLM 保持一致。

功能特性

vLLM Ascend

vLLM Ascend (+ MindIE Turbo)

备注说明

V1Engine

🔵 实验性功能

🔵 实验性功能

将在v0.8.x版本中增强

分块预填充

🟢 功能正常

🟢 功能正常

/

自动前缀缓存

🟢 功能正常

🟢 功能正常

[使用限制]#732

LoRA

🟢 功能正常

🟡 计划中

/

提示词适配器

🟡 计划中

🟡 计划中

/

推测解码

🟢 功能正常

🟢 功能正常

[使用限制]#734

池化

🟢 功能正常

🟢 功能正常

/

编码-解码

🟡 计划中

🟡 计划中

/

多模态

🟢 功能正常

🟢 功能正常

/

LogProbs

🟢 功能正常

🟢 功能正常

/

提示词对数概率

🟢 功能正常

🟢 功能正常

/

异步输出

🟢 功能正常

🟢 功能正常

/

多步调度器

🟢 功能正常

🟢 功能正常

/

最佳结果数

🟢 功能正常

🟢 功能正常

/

束搜索

🟢 功能正常

🟢 功能正常

/

引导式解码

🟢 功能正常

🟢 功能正常

/

张量并行

🟢 功能正常

⚡已优化

/

流水线并行

🟢 功能正常

⚡已优化

/

专家并行

🟡 计划中

🟡 计划中

将在v0.8.x版本中支持

数据并行

🟡 计划中

🟡 计划中

将在v0.8.x版本中支持

预填充解码解耦

🟡 计划中

🟡 计划中

将在v0.8.x版本中支持

量化

🟡 计划中

🟢 功能正常

将在v0.8.x版本中支持

图模式

🟡 计划中

🟡 计划中

将在v0.8.x版本中支持

休眠模式

🟢 功能正常

🟢 功能正常

[使用限制]#733

MTP

🟢 功能正常

🟢 功能正常

[使用限制]#734

自定义调度器

🟢 功能正常

🟢 功能正常

[使用限制]#788

MindIE Turbo 是昇腾硬件上的LLM推理引擎加速插件库。更多信息请查看此处

  • 🟢 功能状态:完全可用,正在持续优化中。

  • 🔵 实验性功能:实验性支持,接口和功能可能会发生变化。

  • 🟡 计划中:已安排在未来版本实现(部分功能可能已有开放PR/RFC)。