NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。它能够通过动态资源调度、智能请求路由、优化的内存管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。
在 NVIDIA GB200 NVL72 上部署开源的 DeepSeek-R1 671B 推理模型时,NVIDIA Dynamo 将处理的请求数量提高至 30 倍,使其成为构建 “ AI 工厂” 的理想解决方案,这些 AI 工厂旨在以最低的成本运行,从而最大化 token 收入。NVIDIA Dynamo 支持所有主要的 AI 推理后端,并提供针对 LLM 的定制化优化技术,例如分离服务 (disaggregated serving),从而以最低的成本和最高的效率加速和扩展 AI 推理模型。Dynamo 将是 NVIDIA AI Enterprise 的未来版本的一部分。
NVIDIA Dynamo 基于 NVIDIA Triton 推理服务器的成功经验构建。Triton 推理服务器是一款企业级的开源软件,针对各种工作负载标准化 AI 模型的部署和执行。您可以通过 NVIDIA AI Enterprise 使用 Triton 推理服务器,从而获得企业级的支持、安全稳定性和可管理性。
将 LLM 上下文(预填充)和生成(解码)阶段分离到不同的 GPU 上,从而实现定制化的模型并行和独立的 GPU 资源分配,以提升每个 GPU 处理的请求数量。
监控分布式推理环境中的 GPU 容量,并在上下文和生成阶段之间动态分配 GPU 工作线程,以解决瓶颈并优化性能。
高效地路由推理流量,最小化因为重复或重叠请求导致的昂贵重复计算,以节省计算资源,同时确保在大型 GPU 集群之间实现均衡的负载分配。
加速分布式推理环境中的数据搬运,同时简化不同硬件(包括 GPU、CPU、网络和存储)之间的传输复杂性。
通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。
利用先进的 LLM 推理服务服务化部署优化功能(例如分离服务),在不影响用户体验的情况下,增加可处理的推理请求数量。
有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。
NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。
了解如何通过 NVIDIA Dynamo 推动创新。
推理模型会生成更多 token 来解决复杂问题,从而提高推理成本。NVIDIA Dynamo 可以通过分离服务等功能,来优化这些模型。这种方法将预填充和解码计算阶段分离到不同的 GPU 上,让 AI 推理团队能够独立优化每个阶段。这种方法将带来更出色的资源利用率,在每个 GPU 上以更低的推理成本处理更多的查询。
随着 AI 模型变得过于庞大而无法容纳在单个节点上,实现其高效的服务化成为一项挑战。分布式推理需要将模型拆分到多个节点,这增加了编排、扩展和通信的复杂性。确保这些节点作为一个整体协调运作,尤其是在动态工作负载下,需要精细的管理。NVIDIA Dynamo 通过在 Kubernetes 上提供预构建功能来简化这一过程,它可以无缝处理调度、扩展和服务化,让您专注于部署 AI 而不是管理基础设施。
AI 智能体依赖于多种模型(LLM、检索系统和专用工具)实时协同运作。扩展这些智能体是一项复杂的挑战,需要智能的 GPU 调度,高效的 KV 缓存管理和超低延迟的通信,才能保持其响应能力。
NVIDIA Dynamo 通过内置的智能 GPU 规划器、智能路由器和低延迟通信库简化了这一过程,使 AI 智能体能够无缝高效地扩展。
代码生成通常需要根据模型的响应进行迭代优化,包括调整提示词、明确需求或调试输出结果。这种反复的交互需要在每次用户操作时重新计算上下文,因而增加了推理成本。NVIDIA Dynamo 通过实现上下文复用和将数据卸载到成本效益更高的内存中,最小化昂贵的重复计算,并降低了整体推理成本。
在 GitHub 下载并加入社区!
探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。
与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。