8月12日,华为举行发布会,正式发布AI推理创新技术UCM。华为方面介绍,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
8月12日,华为举行发布会,正式发布AI推理创新技术UCM。华为方面介绍,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
1、凡来源标注为“产业在线ChinaIOL”的信息、数据及图片内容、报告及目录均为本网原创,著作权受我国法律保护。如需转载,请注明“来源:产业在线”。
2、本网站注明“来源为其他媒体与网站”的文字、图片和视频,转载是出于非商业性的信息交流之目的,并不意味着赞同其观点或认同其内容的真实性。
3、约稿或长期合作,请联系本网。
以上内容最终解释权归产业在线所有。