版本发布说明#

v0.7.3.post1#

这是0.7.3版本的首次发布。请按照官方文档开始使用。本次更新包含以下变更:

亮点#

  • 现已支持Qwen3和Qwen3MOE模型。Qwen3的性能和准确性已通过充分测试,您现在即可试用。推荐使用Mindie Turbo来提升Qwen3的性能表现。#903 #915

  • 新增性能优化指南。该指南旨在帮助用户在系统层面提升vllm-ascend性能,包含操作系统配置、库优化、部署指南等内容。#878 Doc Link

错误修复#

  • Qwen2.5-VL现已支持RLHF场景。#928

  • 用户现在可以直接从在线权重启动模型,例如直接从huggingface或modelscope加载 #858 #918

  • 无意义的日志信息 UserWorkspaceSize0 已被清理。 #911

  • 针对Failed to import vllm_ascend_C的日志级别已从error调整为warning#956

  • DeepSeek MLA现已在V1引擎中支持分块预填充功能。请注意,0.7.3版本的V1引擎仅为实验性质,仅用于测试用途。#849 #936

文档#

  • 基准测试文档已更新支持Qwen2.5和Qwen2.5-VL模型 #792

  • 添加说明以明确只有"modelscope<1.23.0"版本与0.7.3兼容。#954

v0.7.3#

🎉 你好,世界!

我们很高兴宣布vllm-ascend 0.7.3版本正式发布。这是首个官方版本,该版本的功能、性能和稳定性都经过全面测试验证。我们鼓励您尝试使用并提供反馈。如有需要,我们将在未来发布错误修复版本。请按照官方文档开始使用。

亮点#

  • 本版本包含之前候选版本(v0.7.1rc1, v0.7.3rc1, v0.7.3rc2)中的所有功能。所有功能都经过充分测试和验证。请访问官方文档查看详细的功能模型支持矩阵。

  • 将CANN升级至8.1.RC1版本以启用分块预填充和自动前缀缓存功能。您现在可以立即启用这些功能。

  • 将PyTorch升级至2.5.1版本。vLLM Ascend不再依赖torch-npu的开发版本。现在用户无需手动安装torch-npu,系统会自动安装2.5.1版本的torch-npu。#662

  • 将MindIE Turbo集成到vLLM Ascend中,以提升DeepSeek V3/R1、Qwen 2系列的性能。#708

核心#

  • 现已支持LoRA、Multi-LoRA和动态服务功能。性能将在下一版本中进一步提升。更多使用信息请参阅官方文档。感谢招商银行的贡献。#700

模型#

  • Qwen2 vl和Qwen2.5 vl的性能得到提升。#702

  • apply_penaltiestopKtopP 操作的性能得到提升。#525

其他#

  • 修复了可能导致CPU内存泄漏的问题。#691 #712

  • 新增了一个环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到任何soc检测错误,请将 SOC_VERSION 设置为适当的值。#606

  • v0.7.3-openeuler标签支持openEuler容器镜像。#665

  • 前缀缓存功能目前已在V1引擎上运行。#559

v0.7.3rc2#

这是vllm-ascend v0.7.3版本的第二个候选发布版。请按照官方文档开始使用。

  • Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html

  • Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

  • 新增Ascend自定义算子框架。开发者现在可以使用AscendC编写自定义算子。已添加示例算子rotary_embedding。更多教程即将推出。安装vllm-ascend时默认禁用自定义算子编译,设置COMPILE_CUSTOM_KERNELS=1可启用该功能。#371

  • 本版本已基本支持V1引擎,完整支持将在0.8.X版本中实现。如果您遇到任何V1引擎相关问题或有任何需求,请在此告知我们。#376

  • 前缀缓存功能现已可用。您可以通过设置enable_prefix_caching=True来启用该功能。#282

核心#

  • 将torch_npu版本升级至dev20250320.3以提高精度,修复!!!输出问题。#406

模型#

  • 通过优化patch embedding(Conv3D)提升了Qwen2-vl模型的性能。#398

其他#

  • 修复了一个bug以确保多步调度器功能正常工作。#349

  • 修复了一个bug,使前缀缓存功能能够正确工作。#424

已知问题#

  • 当设置enable_prefix_caching=True时,长前缀输入情况下会出现错误,如issue所示,该问题依赖于CANN 8.1 NNAL软件包的发布。

v0.7.3rc1#

🎉 你好,世界!这是vllm-ascend v0.7.3版本的第一个候选发布版。请按照官方文档开始使用之旅。

  • Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html

  • Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

  • DeepSeek V3/R1 目前运行良好。阅读官方指南开始使用!#242

  • 支持推测解码功能。#252

  • 支持多步调度器功能。#300

核心#

  • 将torch_npu版本升级至dev20250308.3以提高_exponential计算精度

  • 新增了对池化模型的初步支持。基于Bert的模型,例如BAAI/bge-base-en-v1.5BAAI/bge-reranker-v2-m3现已可用。#229

模型#

  • Qwen2-VL 的性能有所提升。#241

  • 现已支持MiniCPM #164

其他#

  • 支持DeepSeek V3/R1的多令牌预测(MTP)功能 #236

  • [文档] 新增更多模型教程,包括DeepSeek、QwQ、Qwen和Qwen 2.5VL。详情请参阅官方文档

  • 在vLLM v0.7.3上固定modelscope版本低于1.23.0以解决:https://github.com/vllm-project/vllm/pull/13807

已知问题#

  • 在某些情况下,特别是当视觉语言模型的输入/输出非常长时,输出结果的准确性可能会出现错误。您可能会在输出中看到许多!或其他无法识别的代码。我们正在解决这个问题,将在下一个版本中修复。

  • 改进并减少了模型输出中的乱码问题。但如果您仍遇到该问题,请尝试调整生成配置值,例如temperature后重试。欢迎任何反馈#277

v0.7.1rc1#

🎉 你好,世界!

我们很高兴地宣布vllm-ascend的首个v0.7.1候选版本。

vLLM Ascend插件(vllm-ascend)是一个由社区维护的硬件插件,用于在昇腾NPU上运行vLLM。通过此版本发布,用户现在可以在昇腾NPU上体验vLLM的最新功能和改进。

请按照官方文档开始使用。请注意这是候选发布版本,可能存在一些错误或问题。我们非常欢迎您在此提供反馈和建议

亮点#

  • vLLM初步支持昇腾NPU。#3

  • 现已支持DeepSeek。#88 #68

  • 同时也支持Qwen、Llama系列及其他流行模型,更多详情请参见此处

核心#

  • 新增了Ascend量化配置选项,具体实现即将推出。#7 #73

  • 添加silu_and_mul和rope算子,并将混合算子加入注意力层。#18

其他#

  • [持续集成] 启用昇腾CI持续监控并提升vLLM在昇腾平台上的质量。#3

  • [Docker] 新增vllm-ascend容器镜像 #64

  • [文档] 新增实时文档 #55

已知问题#

  • 本版本依赖尚未发布的torch_npu版本。官方容器镜像中已预装该组件。若您使用非容器环境,请手动安装

  • 运行时会出现类似No platform deteced, vLLM is running on UnspecifiedPlatformFailed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不会影响任何功能和性能,您可以忽略它。该问题已在此PR中修复,并将很快包含在v0.7.3版本中。

  • 运行vllm-ascend时会出现类似# CPU blocks: 35064, # CPU blocks: 2730的日志,实际上应该显示为# NPU blocks:。这不会影响任何功能和性能,可以忽略。该问题已在PR中修复,将在v0.7.3版本中发布。