发布日期:2026-05-10 09:39点击次数:

编辑 | 泽南黔东南pvc排水管专用胶水
AI 时代堆 GPU,原来是这么个堆法?
马斯克旗下的 xAI 目前 GPU 资源利用率只有大概 11。相关报告指出,其 AI 软件栈的优化果不尽如人意。近日,《The Information》的报道引发了人们的关注。
目前,xAI 在其 Memphis 和 Colossus 数据中心集群中运营着约 55 万块英伟达 GPU,包括 H100 和 H200 两种型号,其中部分设备采用了液冷散热配置。尽管这些 GPU 属于上代产品(早于新的 Blackwell 系列),但其规模已经令人叹为观止。
拥有如此庞大的 GPU 存量,xAI 的模型力利用率(MFU,Model FLOPs Utilization)却只有 11。个不恰当的比喻,在 xAI 服务器中已安装的这 50 万块 GPU 中,实际可用的力仅相当于约 6 万块 GPU 的水平。究竟是什么原因致了如此低的率?
先,对于较小规模的部署环境(例如 1000-10000 块 GPU)而言,多节点之间的协调计通常不成问题。但随着服务器规模的不断扩大,当需要集成数十万颗 GPU 时,设备的空闲时间便会迅速累积,致整体利用率急剧下滑。由此引发的软件栈内部的系列不致问题黔东南pvc排水管专用胶水,目前正在 xAI 的实际运行中暴露遗。
在集群中,GPU 芯片本身的计速度相对很快,瓶颈在于带宽内存(HBM)的数据读写速度和成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小的延迟或网络拥堵,整个集群的 GPU 就会被迫 "原地挂机" 等待数据加载。
另面,AI 模型的训练通常是间歇的。GPU 在实际计时满载运转,但在研究人员分析训练结果、调整参数或处理数据管道时,大量设备就会处于闲置(Idle)状态。
奥力斯 pvc管道管件胶批发 联系人:王经理 手机:15226765735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
虽然 11 是个显然偏低的数字,但 The Information 的报道也揭示了 AI 域的些行业潜规则:力浪费是普遍的现象,有些大厂的研究人员为了避被管理层批评,或者害怕闲置的 GPU 配额被其他团队走,PVC管道管件粘结胶甚至会故意重复运行些意义的训练任务来 "刷" 利用率数据。
该说不说,这么做也是为了保住团队自己的 GPU 配额。
当然,这并非 xAI 有的难题黔东南pvc排水管专用胶水,它实际上是整个 AI 行业普遍存在的种结构问题 —— AI 基础设施要在如此庞大的规模下实现运行,是项其艰巨的挑战。
运行 AI 云基础设施所需的优化技能涵盖数据、法、模型、计、内核、交互(人类 - AI - 世界、智能体之间),以及全局优化,在工程上难度。
些科技巨头着重优化了大规模基础设施堆栈,已经能够实现过 40 的利用率。Meta 和谷歌便是此类典范,其 GPU 的利用率分别达 43 和 46。
xAI 遇到的困境证明了在当前的 AI 军备竞赛中,"买到 GPU " 只是步,用好才是关键。硬件规模已经出了现有软件架构的调度能力。
不过,xAI 已在着手解决这问题,并设定了利用率达到 50 的目标。尽管目前尚确切的时间表,但其核心改进将聚焦于基础设施与软件堆栈的优化。随着未来工作负载逐步迁移至那些为驱动 "智能体 AI "(Agentic AI)需求而设计的硬件平台之上,xAI 有可能将其庞大的 GPU 集群对外提供租赁服务。
马斯克也在寻求转变,押注于自研力的 " TeraFab " 项目:面,他正在动多款自研芯片,将其纳入 xAI 的 " AI 芯片族" 之中;另面,马斯克也希望借助英特尔的 14A 制程技术,为未来的 xAI、SpaceX 及其它相关业务造解决案。
xAI 的困境提醒了所有追赶者:AI 竞赛的下半场,拼的可能不再是谁能买到多显卡。
参考内容:
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus
相关词条:铁皮保温施工 隔热条设备 锚索 离心玻璃棉 万能胶生产厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定黔东南pvc排水管专用胶水,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
18232851235