订阅
纠错
加入自媒体

聊聊大模型推理系统之 BlendServe:通过资源感知批处理策略,最大化硬件资源利用率和推理吞吐量

2025-04-30 09:47
机智流
关注

作者:InternLM、Qwen 等 LLM

全文约 2600 字,预计阅读 7 分钟

近年来,大型语言模型(LLM)的广泛应用推动了推理服务系统的不断优化。然而,在离线批量推理场景中,如何平衡计算资源利用效率和性能仍是一个亟待解决的问题。

因此,今天我们来聊聊加州大学伯克利分校、华盛顿大学等团队联合提出的一种名为BlendServe的系统,通过创新的资源感知批处理策略,显著提升了硬件利用率与推理吞吐量。本文将带您快速了解这项研究的核心亮点、背景、方法创新及行业意义。

核心看点

BlendServe的核心目标是通过重新排序和重叠请求来最大化硬件资源利用率,同时保持高前缀共享率。实验表明,该系统在多种合成多模态工作负载下表现出色:

吞吐量提升:相比现有的行业标准(如vLLMSGLang),BlendServe实现了高达1.44 倍的吞吐量加速。资源重叠优化:通过资源感知前缀树的设计,系统能够有效结合计算密集型和内存密集型请求,实现资源调度的最佳平衡。前缀共享保持:即使在优化资源使用的同时,BlendServe仍能保持接近最优的前缀共享率(超过 97% )。通用性强:无论是文本生成、视频理解还是多模态任务,BlendServe均展现出稳定的性能优势。

这些突破为离线推理任务提供了全新的解决方案,特别是在大规模多模态数据处理中具有重要应用价值。

研究背景

在传统的在线推理服务中,低延迟是首要目标,因此系统设计通常采用严格的“先到先服务”策略(FCFS)。然而,在离线批量推理场景中,延迟要求相对宽松,这为更灵活的请求调度和资源优化提供了可能。近年来,随着Transformer架构的普及,模型的输入输出长度变得更加多样化,例如长上下文推理(如Tree of Thoughts)、复杂推理链路(如Chain of Thought)以及多模态扩展(如LWMUnified-IO等)。

这种多样性带来了新的挑战:一方面,不同请求对计算资源(如 GPU 算力)和内存带宽的需求差异显著;另一方面,现有技术(如NanoFlow)虽然尝试通过操作级重叠优化资源使用,但忽略了请求间的资源互补性,导致整体性能受限。因此,如何在离线推理中实现高效资源调度成为了一个关键问题。

BlendServe正是从这一痛点切入,提出了一种兼顾资源重叠前缀共享的全新调度方法,从而在保证高吞吐量的同时降低推理成本。

核心贡献

方法创新:资源感知前缀树

为了实现资源调度的全局优化,BlendServe引入了一种新颖的资源感知前缀树结构。这一结构不仅能够捕获请求之间的前缀共享关系,还能通过节点的计算密度值量化其资源需求特性。具体而言:

计算密度定义:计算密度(ρ(r))是计算时间与内存绑定操作时间的比值。通过这一指标,系统能够区分计算密集型和内存密集型请求,并将其分别排列在树的左侧和右侧。双扫描算法:在排序后的前缀树上,BlendServe采用一种启发式双扫描算法,从左至右和从右至左同时扫描叶子节点,动态构建混合型请求批次。这种方法确保了计算与内存资源的均衡使用,同时保留了高前缀共享率。

实验结果表明,相较于仅依赖深度优先搜索(DFS)的传统方法,BlendServe在吞吐量上平均提升了 20.84% (基准:NanoFlow-DFS)。

理论突破:前缀共享与资源重叠的权衡

传统方法通常在前缀共享和资源重叠之间存在权衡:追求高前缀共享率可能导致资源分配不均,而单纯优化资源重叠则可能牺牲前缀共享带来的性能增益。BlendServe通过理论建模解决了这一问题:

首先,系统基于计算密度对请求进行分层排序,确保计算密集型和内存密集型请求的分布均匀。其次,通过动态调整 GPU 内存分区,系统能够在每个批次内实现最佳资源重叠比例(即计算密度接近 1),从而最大化硬件利用率。

在实际测试中,BlendServe达到了 86.55% 的理论最优吞吐量,显著优于现有基线。

实证成果:广泛适用的性能提升

研究团队在多个合成工作负载上验证了BlendServe的性能,包括WildChatShareGPTAzure-TraceOpenVid等代表性数据集。结果显示:

在高前缀共享率场景下,系统性能稳定,吞吐量提升幅度达 19.34%-22.65% 。在低前缀共享率场景下,系统仍能通过高效的资源重叠策略实现 14%-34% 的性能提升。

此外,BlendServe的灵活性使其适用于分布式环境,能够轻松扩展至多 GPU 或多节点部署,契合当前大规模推理服务的发展趋势。

行业意义

BlendServe的研究成果不仅为离线推理任务提供了全新的思路,还对整个 AI 推理服务领域产生了深远影响:

推动多模态推理发展:随着多模态模型(如EMUVILA-U)的兴起,推理系统需要处理更加复杂的资源需求。BlendServe的资源感知机制为这类任务提供了高效解决方案,有助于进一步降低计算成本。契合绿色计算趋势:通过提高硬件利用率,BlendServe能够显著减少推理任务的能耗,符合碳中和政策导向,助力绿色数据中心建设。引领技术变革:该研究为未来的推理系统设计提供了重要参考,特别是在分布式环境下的资源调度优化方面,有望推动新一代推理框架的诞生。结语

BlendServe以其独特的资源感知批处理策略,成功突破了离线推理中的资源调度瓶颈,为多模态任务和大规模推理服务带来了显著的性能提升。未来,随着更多应用场景的落地,这一技术有望成为 AI 推理领域的核心工具之一,为行业带来更大的变革力量。

???? 论文链接:

https://arxiv.org/abs/2411.16102

第一作者Yilong ZhaoShuo Yang深耕AI 系统优化领域多年,曾参与多项高性能计算与机器学习系统的研究项目。本研究得到了加州大学伯克利分校、华盛顿大学以及 xAI 实验室的联合支持。

-- 完 --

       原文标题 : 聊聊大模型推理系统之 BlendServe:通过资源感知批处理策略,最大化硬件资源利用率和推理吞吐量

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号