版本发布说明#
v0.7.3.post1#
这是0.7.3版本的首次发布。请按照官方文档开始使用。本次更新包含以下变更:
亮点#
错误修复#
文档#
v0.7.3#
🎉 你好,世界!
我们很高兴宣布vllm-ascend 0.7.3版本正式发布。这是首个官方版本,该版本的功能、性能和稳定性都经过全面测试验证。我们鼓励您尝试使用并提供反馈。如有需要,我们将在未来发布错误修复版本。请按照官方文档开始使用。
亮点#
本版本包含之前候选版本(v0.7.1rc1, v0.7.3rc1, v0.7.3rc2)中的所有功能。所有功能都经过充分测试和验证。请访问官方文档查看详细的功能和模型支持矩阵。
将CANN升级至8.1.RC1版本以启用分块预填充和自动前缀缓存功能。您现在可以立即启用这些功能。
将PyTorch升级至2.5.1版本。vLLM Ascend不再依赖torch-npu的开发版本。现在用户无需手动安装torch-npu,系统会自动安装2.5.1版本的torch-npu。#662
将MindIE Turbo集成到vLLM Ascend中,以提升DeepSeek V3/R1、Qwen 2系列的性能。#708
核心#
现已支持LoRA、Multi-LoRA和动态服务功能。性能将在下一版本中进一步提升。更多使用信息请参阅官方文档。感谢招商银行的贡献。#700
模型#
其他#
v0.7.3rc2#
这是vllm-ascend v0.7.3版本的第二个候选发布版。请按照官方文档开始使用。
Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将torch_npu版本升级至dev20250320.3以提高精度,修复
!!!输出问题。#406
模型#
通过优化patch embedding(Conv3D)提升了Qwen2-vl模型的性能。#398
其他#
已知问题#
当设置
enable_prefix_caching=True时,长前缀输入情况下会出现错误,如issue所示,该问题依赖于CANN 8.1 NNAL软件包的发布。
v0.7.3rc1#
🎉 你好,世界!这是vllm-ascend v0.7.3版本的第一个候选发布版。请按照官方文档开始使用之旅。
Quickstart with container: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
Installation: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将torch_npu版本升级至dev20250308.3以提高
_exponential计算精度新增了对池化模型的初步支持。基于Bert的模型,例如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。#229
模型#
其他#
已知问题#
v0.7.1rc1#
🎉 你好,世界!
我们很高兴地宣布vllm-ascend的首个v0.7.1候选版本。
vLLM Ascend插件(vllm-ascend)是一个由社区维护的硬件插件,用于在昇腾NPU上运行vLLM。通过此版本发布,用户现在可以在昇腾NPU上体验vLLM的最新功能和改进。
请按照官方文档开始使用。请注意这是候选发布版本,可能存在一些错误或问题。我们非常欢迎您在此提供反馈和建议
亮点#
核心#
其他#
已知问题#
本版本依赖尚未发布的torch_npu版本。官方容器镜像中已预装该组件。若您使用非容器环境,请手动安装。
运行时会出现类似
No platform deteced, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不会影响任何功能和性能,您可以忽略它。该问题已在此PR中修复,并将很快包含在v0.7.3版本中。运行vllm-ascend时会出现类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,实际上应该显示为# NPU blocks:。这不会影响任何功能和性能,可以忽略。该问题已在PR中修复,将在v0.7.3版本中发布。