阿里云推出全新AI计算解决方案:大模型所需GPU狂降82%

2025-10-23 15:06    来源:快科技

  10月21日消息,在近日于韩国首尔举办的顶级学术会议SOSP 2025(操作系统原理研讨会)上,阿里云发布了其“Aegaeon”计算池化解决方案。

  Aegaeon方案的核心在于解决AI模型服务中普遍存在的GPU资源浪费问题,尤其针对那些需求突发或不可预测的大型语言模型。

  它打破了传统的“一个模型绑定一个GPU”的低效模式,而是在Token级别虚拟化GPU访问,这意味着单个GPU可以被多个不同模型共享服务,实现精细化的资源调度。

  阿里云Aegaeon系统作为一种推理时间调度器,它能在每次生成下一个token后,动态决定是否切换模型,从而将微小的工作片段安排到共享池中。

  通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低了97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。

  在阿里云模型市场为期超三个月的Beta测试中,Aegaeon系统在服务数十个参数量高达720亿的大模型时,所需的NVIDIA H20 GPU数量从1192个锐减至213个,削减比例高达82%。

  GPU用量的大幅削减,对于硬件采购成本高昂的大型模型服务商而言,意味着成本将显著降低。

  目前,这项核心技术已成功应用在阿里云百炼平台。






(责编:lxh)

版权与免责声明:


1.凡本网注明稿件来源为“机经网”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人不得非法转载、摘编或利用其它方式使用上述信息。合法使用本网信息的,应注明“来源:机经网”等字样。违反上述声明者,本网将追究其相关法律责任。


2.本网注明稿件来源为其他媒体的文/图等稿件均为转载稿,转载目的在于发挥网络优势,传播更多信息,服务机械行业发展,并不代表本网赞同其观点或对其真实性负责。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的“稿件来源”,并自负版权等法律责任。如擅自篡改稿件来源为“机经网”,本网可依法追究其法律责任。


3.如本网转载稿涉及版权等问题, 请作者在稿件发布之日起两周内速来电或来函与本网联系 。联系电话: 010-65242677 电子邮件: edit@mei.net.cn


协会 资讯