手机浏览器扫描二维码访问
最近商汤大装置和记忆张量联手搞出了个大动静——落地了业界首个国产GPGPU PD分离商用推理集群,最亮眼的成绩是:在大模型推理这个关键赛道上,综合推理性价比直接干到了同代NVIDIA A100的150%。
这话乍一听有点抽象,说白了就是:用国产的芯片和软件,跑大模型推理业务,花同样的钱能跑出1.5倍的效果,或者说跑出同样的效果,只需要花三分之二的钱。更关键的是,这不是靠堆硬件、拼参数的“笨办法”,而是靠体系级的软硬件协同创新,给国产算力闯出了一条“弯道超车”的路子,不是跟在别人屁股后面模仿。
下面咱们用大白话把这件事的来龙去脉、核心门道和行业意义掰扯清楚,让大家明白这波操作到底牛在哪。
一、先搞懂:大模型推理为啥这么难?PD分离又是啥?
要理解这个合作的价值,得先明白大模型推理的核心痛点。咱们平时用ChatGPT、文心一言这类大模型,看似只是发个指令等回复,背后的计算过程其实分两大步,这两步的需求天差地别,也是卡住很多算力的“瓶颈”。
第一步叫Prefill(预处理)。当你输入一个问题,比如“帮我写一篇关于古蜀文明的短文”,大模型要先把这段文字转换成机器能看懂的向量,然后一次性计算出大量的中间结果,也就是KV缓存。这个过程的特点是计算量大、可以批量处理,就像工厂里的流水线批量生产零件,需要算力集中发力,但对延迟要求不高——稍微等个几十毫秒,用户根本感觉不到。
第二步叫Decode(解码)。大模型拿到KV缓存后,要逐字逐句生成回复,也就是“逐token生成”。比如先出“古蜀文明”,再出“是中国西南地区一支极具特色的古代文明”,每生成一个词,都要用到前面的KV缓存。这个过程的特点是计算量小,但对延迟要求极高——要是生成一句话卡个一两秒,用户体验直接拉胯,而且这个过程没法批量,只能“串行干活”。
这两步本来是在同一批硬件上完成的,问题就出在这:Prefill阶段需要“暴力计算”,会占满硬件的算力和显存;等轮到Decode阶段,硬件又闲着大半,算力利用率直接暴跌。尤其是国产GPGPU,本身在显存容量、生态适配方面和国际顶尖产品有差距,这么一折腾,劣势更明显——跑同样的任务,成本高、速度慢,根本没法商业化。
那PD分离是啥?说白了就是“分工合作”——把Prefill和Decode这两个阶段,拆到不同的硬件集群上分别处理。负责Prefill的集群专门干“批量重活”,把KV缓存算好;负责Decode的集群专门干“精细快活”,用现成的KV缓存快速生成回复。这样一来,硬件不用在两种模式间来回切换,利用率能提一大截。
但这里要划重点:单纯的硬件PD分离,解决不了根本问题。很多厂商之前也试过,结果发现只是把“一个瓶颈”变成了“两个瓶颈”——Prefill集群算完的KV缓存,要传到Decode集群,传输过程会产生延迟;而且KV缓存本身占显存,就算分开处理,显存不够用的问题还是没解决,性价比提升非常有限。
二、核心突破:不是改硬件,是重构整个推理范式
商汤和记忆张量的聪明之处在于,他们没有局限在“硬件层面拆分工序”,而是把PD分离技术,和记忆张量的核心产品MemOS的激活记忆体系深度绑在了一起,相当于从“流水线分工”升级到了“全产业链协同”,直接重构了大模型推理的底层逻辑。
咱们来拆解这个“协同创新”的关键操作,其实就两件核心事,件件都戳中痛点:
1. MemOS的激活记忆体系:让KV缓存“活起来”,省下大量显存
前面说过,KV缓存是大模型推理的“刚需”,但它特别占显存——一个千亿参数的大模型,一次推理产生的KV缓存,就能吃掉好几GB的显存。传统模式下,这些缓存用过一次就扔,下次再推理,又要重新计算,既费算力又费显存。
而MemOS的激活记忆体系,说白了就是给KV缓存搞了个“智能管理系统”。它能做到两件事:
- 缓存复用:把高频出现的KV缓存(比如用户经常问的“大模型是什么”这类通用问题的缓存)存起来,下次再有用户问类似问题,直接调用现成的缓存,不用重新计算。这就像餐厅里的预制菜,不用每次都从零开始炒菜,节省大量时间和燃气。
- 动态压缩:对不常用的KV缓存,进行无损压缩,把显存占用率降下来。比如原本占10GB的缓存,压缩后只占5GB,省下的显存就能用来跑更多的推理任务,相当于一台机器当成两台用。
命运是注定的吗?当你平淡幸福的生活出现了一张癌症诊断书,你会绝望吗?如果当下的医学不能让你继续活下去,你是否会另辟蹊径?你是否想过这个世界或许并不似我们见到的这么简单?他,站在命运的转折点,选择了向死而生。而他,决定陪他走完最后的路。但上万年前未尽的宿命,终将指引出新的道路,直至……他们再度成为宿敌。......
龙凤胎哥哥沈云追,自小就被当作五皇子的替身长期在三清观修行,可就这样还有人不想放过他,从小时候的毒药到后来的直接暗杀,妄图李代桃僵让他悄无声息的死去龙凤胎妹妹莫云澜,自小就被人带进了生存都是问题的流浪谷,为了活命,她拼尽全力,幸得大儒为她开智,后又得神偷传授她武功。不想有人要她李代桃僵,顶替小少爷打进侯府。自此命运......
安然在得知秦宇在外面有了女人后,转身上了他死对头的床。“你这样诱人,你男朋友怎么肯的?”男人抚摸着她的青丝,透露出几分柔情。安然冷笑:“外面的屎没吃过都是香的。”一夜缠绵后她转身就走,并不打算有什么结果。他心里想必揣着白月光,自己也谋位不谋爱。直到渣男告诉自己,一切都是萧翊的算计后,她转身离开订婚宴。那位高高在上精......
C市首富之子洛舟,俊美毒舌,单身至今,喜好成谜,众人眼里标准的高岭之花。 某次,面对圈内小花的邀酒暗示,洛舟懒散抬眼:“不好意思,家里管的严,门禁八点。” “……” 小花面如土色转身离开,自此,“太子门禁八点”一战成名。 - 洛舟是初瞳的男神,年少倾心,大学还特地选在了他的城市。 初瞳生日那天,和洛舟定了夜场电影,在他公司等待的时候被问起,她说明了来意。 没想到洛舟的一众朋友却笑了起来:“哈?夜场电影?” “我们洛少晚上的时间可宝贵了,八点必回家吃饭。” “妹妹不知道吧?这厮有门禁的,不骗你,回去洗洗睡吧。” “……” 初瞳懵了,正不知道该说什么,侧面突然幌过来一个人影 容颜清俊,长身玉立 洛舟桃花眼微敛,看着她更正谣言—— “别听他们放屁。” “我是孤儿,没有门禁。” 狐朋狗友:“???” 你双标怎么成了我们放屁? 【美梦成真小仙女x双标毒舌太子爷】 本文又名:《**驰名双标》《八点门禁》《但是约她我就是孤儿》《后来男主被他爸打断了腿》 一句话简介:大概是个少女暗恋男神多年但还没想好怎么追就被迫嫁给了男神的故事。 - [小剧场]: 两人刚谈恋爱的第一周,只牵过手,纯的不得了。 可某人有点忍不住了。 一个下午,初瞳窝在沙发上正网上冲浪,却遇到了难题:“那个,什么叫……‘朋友,癌症,想看’?” 洛舟解释:“你自己想看某种东西,但不直接说,反而捏造了一个‘朋友’。” 初瞳眨眨眼:“不懂。” “那我给你造个句,”洛舟淡笑着和她对视,“我有一个朋友,得了癌症,临死前唯一的愿望,就是看到我们接吻。” 初瞳:“………” #无中生友·凭空想象·他急了他急了他急了#...
一石激起千层浪,转生至异界的男人,如新生小动物般缓缓地向世界探出感知的触角。谨守本心,岿然不动,还是放纵欲望,随波逐流?如同一颗流星划过天际,是带来灾难还是承载祝愿,皆由心定。......
附:【本作品来自互联网,本人不做任何负责】内容版权归作者所有!=================书名:雪满庭作者:颜竹佳文案:在一个大雪纷飞的日子,誉满天下的兰陵萧氏一族被满门抄斩。幼女萧姮被忠仆救出,历经坎坷,流落至霸陵候府成了一名灶下婢……那边厢,世人皆道,霸陵候世子年少英华,一身玉色罗袍、执秋水长剑。意静神遐中透着满身的孤高自诩,目...