版本说明

版本发布说明#

v0.7.3.post1#

这是0.7.3版本的首次发布。请按照官方文档开始使用。本次更新包含以下变更：

亮点#

现已支持Qwen3和Qwen3MOE模型。Qwen3的性能和准确性已通过充分测试，您现在即可试用。推荐使用Mindie Turbo来提升Qwen3的性能表现。#903 #915
新增性能优化指南。该指南旨在帮助用户在系统层面提升vllm-ascend性能，包含操作系统配置、库优化、部署指南等内容。#878 Doc Link

错误修复#

Qwen2.5-VL现已支持RLHF场景。#928
用户现在可以直接从在线权重启动模型，例如直接从huggingface或modelscope加载 #858 #918
无意义的日志信息 UserWorkspaceSize0 已被清理。 #911
针对Failed to import vllm_ascend_C的日志级别已从error调整为warning。#956
DeepSeek MLA现已在V1引擎中支持分块预填充功能。请注意，0.7.3版本的V1引擎仅为实验性质，仅用于测试用途。#849 #936

文档#

基准测试文档已更新支持Qwen2.5和Qwen2.5-VL模型 #792
添加说明以明确只有"modelscope<1.23.0"版本与0.7.3兼容。#954

v0.7.3#

🎉 你好，世界！

我们很高兴宣布vllm-ascend 0.7.3版本正式发布。这是首个官方版本，该版本的功能、性能和稳定性都经过全面测试验证。我们鼓励您尝试使用并提供反馈。如有需要，我们将在未来发布错误修复版本。请按照官方文档开始使用。

亮点#

本版本包含之前候选版本(v0.7.1rc1, v0.7.3rc1, v0.7.3rc2)中的所有功能。所有功能都经过充分测试和验证。请访问官方文档查看详细的功能和模型支持矩阵。
将CANN升级至8.1.RC1版本以启用分块预填充和自动前缀缓存功能。您现在可以立即启用这些功能。
将PyTorch升级至2.5.1版本。vLLM Ascend不再依赖torch-npu的开发版本。现在用户无需手动安装torch-npu，系统会自动安装2.5.1版本的torch-npu。#662
将MindIE Turbo集成到vLLM Ascend中，以提升DeepSeek V3/R1、Qwen 2系列的性能。#708

核心#

现已支持LoRA、Multi-LoRA和动态服务功能。性能将在下一版本中进一步提升。更多使用信息请参阅官方文档。感谢招商银行的贡献。#700

模型#

Qwen2 vl和Qwen2.5 vl的性能得到提升。#702
apply_penalties 和 topKtopP 操作的性能得到提升。#525

其他#

修复了可能导致CPU内存泄漏的问题。#691 #712
新增了一个环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到任何soc检测错误，请将 SOC_VERSION 设置为适当的值。#606
v0.7.3-openeuler标签支持openEuler容器镜像。#665
前缀缓存功能目前已在V1引擎上运行。#559

v0.7.3rc2#

这是vllm-ascend v0.7.3版本的第二个候选发布版。请按照官方文档开始使用。

Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

新增Ascend自定义算子框架。开发者现在可以使用AscendC编写自定义算子。已添加示例算子rotary_embedding。更多教程即将推出。安装vllm-ascend时默认禁用自定义算子编译，设置COMPILE_CUSTOM_KERNELS=1可启用该功能。#371
本版本已基本支持V1引擎，完整支持将在0.8.X版本中实现。如果您遇到任何V1引擎相关问题或有任何需求，请在此告知我们。#376
前缀缓存功能现已可用。您可以通过设置enable_prefix_caching=True来启用该功能。#282

核心#

将torch_npu版本升级至dev20250320.3以提高精度，修复!!!输出问题。#406

模型#

通过优化patch embedding（Conv3D）提升了Qwen2-vl模型的性能。#398

其他#

修复了一个bug以确保多步调度器功能正常工作。#349
修复了一个bug，使前缀缓存功能能够正确工作。#424

已知问题#

当设置enable_prefix_caching=True时，长前缀输入情况下会出现错误，如issue所示，该问题依赖于CANN 8.1 NNAL软件包的发布。

v0.7.3rc1#

🎉 你好，世界！这是vllm-ascend v0.7.3版本的第一个候选发布版。请按照官方文档开始使用之旅。

Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

DeepSeek V3/R1 目前运行良好。阅读官方指南开始使用！#242
支持推测解码功能。#252
支持多步调度器功能。#300

核心#

将torch_npu版本升级至dev20250308.3以提高_exponential计算精度
新增了对池化模型的初步支持。基于Bert的模型，例如BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。#229

模型#

Qwen2-VL 的性能有所提升。#241
现已支持MiniCPM #164

其他#

支持DeepSeek V3/R1的多令牌预测(MTP)功能 #236
[文档] 新增更多模型教程，包括DeepSeek、QwQ、Qwen和Qwen 2.5VL。详情请参阅官方文档
在vLLM v0.7.3上固定modelscope版本低于1.23.0以解决：https://github.com/vllm-project/vllm/pull/13807

已知问题#

在某些情况下，特别是当视觉语言模型的输入/输出非常长时，输出结果的准确性可能会出现错误。您可能会在输出中看到许多!或其他无法识别的代码。我们正在解决这个问题，将在下一个版本中修复。
改进并减少了模型输出中的乱码问题。但如果您仍遇到该问题，请尝试调整生成配置值，例如temperature后重试。欢迎任何反馈。#277

v0.7.1rc1#

🎉 你好，世界！

我们很高兴地宣布vllm-ascend的首个v0.7.1候选版本。

vLLM Ascend插件(vllm-ascend)是一个由社区维护的硬件插件，用于在昇腾NPU上运行vLLM。通过此版本发布，用户现在可以在昇腾NPU上体验vLLM的最新功能和改进。

请按照官方文档开始使用。请注意这是候选发布版本，可能存在一些错误或问题。我们非常欢迎您在此提供反馈和建议

亮点#

vLLM初步支持昇腾NPU。#3
现已支持DeepSeek。#88 #68
同时也支持Qwen、Llama系列及其他流行模型，更多详情请参见此处。

核心#

新增了Ascend量化配置选项，具体实现即将推出。#7 #73
添加silu_and_mul和rope算子，并将混合算子加入注意力层。#18

其他#

[持续集成] 启用昇腾CI持续监控并提升vLLM在昇腾平台上的质量。#3
[Docker] 新增vllm-ascend容器镜像 #64
[文档] 新增实时文档 #55

已知问题#

本版本依赖尚未发布的torch_npu版本。官方容器镜像中已预装该组件。若您使用非容器环境，请手动安装。
运行时会出现类似No platform deteced, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不会影响任何功能和性能，您可以忽略它。该问题已在此PR中修复，并将很快包含在v0.7.3版本中。
运行vllm-ascend时会出现类似# CPU blocks: 35064, # CPU blocks: 2730的日志，实际上应该显示为# NPU blocks:。这不会影响任何功能和性能，可以忽略。该问题已在PR中修复，将在v0.7.3版本中发布。

版本说明

目录

版本发布说明#

v0.7.3.post1#

亮点#

错误修复#

文档#

v0.7.3#

亮点#

核心#

模型#

其他#

v0.7.3rc2#

亮点#

核心#

模型#

其他#

已知问题#

v0.7.3rc1#

亮点#

核心#

模型#

其他#

已知问题#

v0.7.1rc1#

亮点#

核心#

其他#

已知问题#