发布日期:2025-01-12 07:34    点击次数:154

开云体育起始业内觉得可能是台积电的N4P制程工艺存在问题-开云提款靠谱·最新(中国)官方网站

出品 | 虎嗅科技组

作家 | 丸王人山

裁剪 | 苗正卿

头图 | 视觉中国

继B200/GB200芯片请托推迟后,或又濒临新品难产的问题。

12月24日,据Wccftech报说念,英伟达最新旗舰芯片B300/GB300的参数仍是证明。其中B300的显存规格从上代产物的192Gb栽植至288Gb;GB300平台将初次使用LPCAMM内存模块联想,并配备带宽栽植至1.6Tbps的光模块,以确保数据高速传输。

在性能大幅栽植的同期,B300/GB300的功耗也被拉到史无先例的高度,TDP(热联想功耗)达到1400W。当作对比,Hopper架构的拳头产物H100芯片,其TDP为350W。

这关于处事器的散热联想来说,无疑是个弘远的挑战。

而就在上周,天风国外分析师郭明錤在研报中暗示,英伟达在为B300/GB300斥地测试DrMos手艺时,发现芯片存在严重的过热问题,这可能会影响B300/GB300的量产程度。

尽管此前曾屡次暗示,英伟达改日将严格免除“一年一换代”的原则,但旗下GPU在改用Blackwell架构后,不啻一次出现“跳票”的情况。

Blackwell架构,真有问题?

在郭明錤发布的研报中,指出了B300/GB300目下边临的问题:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos有研究在测试中过热。

先来说说DrMos是什么。

这是英特尔在2004年推出的手艺,主要旨趣是将驱动器和MOS集成在所有,以减小多个元件的空间占用以及缩小寄生参数带来的负面影响,从而栽植扶植收尾和功率密度。

轻松地来说,它就是一个高度集成的电源管制有研究。

在英伟达Hooper架构芯片上,包括H100/A100/H800/A800在内,其DrMos有研究全部由MPS(Monolithic Power Systems)供应,可能是基于“不把鸡蛋放在归并个篮子”的原则,在Blackwell架构芯片上,英伟达开动测试AOS的有研究。

那是否能诠释,AOS应该为B300芯片的过热问题“背锅”呢?

就怕并不成。

起初,AOS的5*5 DrMos芯片是一款散热能效高,且格外训练的有研究联想,这在行业内仍是得到等闲考据。

其次,郭明錤的财报中也提到了,有产业链东说念主士指出,B300的发烧问题除了DrMos芯片自己以外,还源于系统芯片管制的联想不及。

这仍是不是Blackwell第一次被曝出存在联想问题。

本年8月,据《The Information》报说念,B200在台积电流片进程中,发现联想存在颓势。

起始业内觉得可能是台积电的N4P制程工艺存在问题,但在与高盛的投资东说念主雷同会中,黄仁勋说出了问题方位:由于GPU芯片、LSI桥、RDL中介层和主板基板之间的热扩张特点不匹配,导致封装结构出现蜿蜒。

“100%是英伟达的背负。”

在芯片联想被曝出颓势后,B200/GB200芯片的请托时辰从本年3季度被推迟至4季度。而况从实质情况来看,现阶段仍莫得公司拿到B200芯片,从公开尊府中得知,马斯克凭借10.8亿好意思元的订单,取得了B200芯片的优先请托权,这些芯片将被用于增强xAI的超等计较集群Colossus。

而即即是取得优先请托权xAI,也得比及来岁1月份才能收到B200芯片。

回到B300芯片上,这是一枚原定在来岁3月GTC大会上发布的旗舰产物,目下却濒临“未发布先难产”的问题。

统共把持AI处事器芯片的英伟达,为什么会在Blackwell上一再翻车。

一个很紧迫的原因是,英伟达过于追求芯片性能上断代起初,从而导致Blackwell系列芯片当作量产型产物,实在酿成一个施行性平台。

比如CoWoS-L封装手艺的哄骗。

这里需要说一个配景是,Blackwell是一枚基于MCM(多芯片封装)联想的GPU,即在归并个芯片上集成两颗GPU die。

为了相助英伟达的需求,台积电方面初次将CoWoS-L手艺哄骗在这枚芯片的封装上。而在此之前,CoWoS-L封装也莫得经过大鸿沟考据。

有业内东说念主士指出,CoWoS-L封装现阶段的良率可能在90%傍边,当作一项后段工艺,这个数字很不睬念念。

需求是否过于乐不雅?

在Blackwell架构芯片推出后,著名华尔街投行Keybanc Capital Markets曾发出了一份掂量:

“Blackwell芯片将股东英伟达数据中心业务的收入,从2024财年(规则2024年1月)的475亿好意思元增长到2025年的2000多亿好意思元。”

人所共知,在大模子的测验与部署中,英伟达的GPU居功至伟,但BlackWell架构芯片果真能凭一己之力带动事迹翻倍上升吗?

即便忽略掉B200/B300的延期请托问题,仅从阛阓需求来看,可能并不是额外的乐不雅。

关于各大互联网公司来说,一个首当其冲的问题是,淌若大鸿沟引入基于Blackwell芯片的处事器,那么算力中心的建树老本将会被大大提高。

因为B200芯片高达1000W的TDP实质上已朝上了传统风冷散热的极限,很多处事器厂商为了管制散热问题,不得以堆砌3D VC(真空腔均热板)的数目和面积,由此导致在42U的程序处事器机柜中,可容纳的芯片越来越少。

而到了B300芯片上,风冷散热有研究岂论奈何修修补补王人无法压住1400W的功耗,必须全面改用液冷。

但关于仍是搭建好计较中心的厂商而言,改用液冷会导致其老本骤增。比如在传统处事器机房中在搭建时王人会对空调系统进行重点联想,一些大型计较中心的空调系统不错支撑0°以下的送风。

淌若改用液冷,则意味着在加入配套基础才略的同期,昔时花大价钱打造的空调系统沦为闲置。

另外就是处事器自己的价钱问题。现阶段,一组基于GB200的AI处事器把柄带宽配置的互异,订价约在200-300万好意思元之间,而淌若这些处事器全部基于GB300改用液冷有研究,价钱以至可能会翻倍。

还有一个很紧迫的问题是,阛阓关于最先进GPU的需求是否好坏?

就在12月14日的NeurIPS大会上,OpenAI集中独创东说念主Ilya Sutskever)暗示,大模子预测验行将竣事,因为AI的化石燃料“数据”仍是用尽了。

淌若Ilya的判断莫得问题,一个可想而知的革新将是大模子的征询要点将从测验转向推理,在这么的配景下,诚然英伟达Blackwell系列芯片具备强盛的“训推一体”才能,但有若干厂商改日兴奋执续性地高老本干与,还有待不雅察。