网站首页

NG体育产品中心

智能终端处理器 智能云服务器 软件开发环境

NG体育新闻中心

关于我们NG体育

公司概况 核心优势 核心团队 发展历程

联系我们NG体育

官方微信 官方微博
NG体育 > NG体育新闻中心

10万块芯片马斯克用最大超算挑战GPNG体育T

发布时间:2024-07-25 04:03浏览次数: 来源于:网络

  NG体育平台昨天凌晨4点20,马斯克发推文宣称,自己刚刚启动了世界上最强的AI训练集群。

  这个超算中心位于美国田纳西州NG体育,孟菲斯,使用了100,000个(不用数了!是10万个!)英伟达H100液冷GPU,通过单一RDMA网络连接 。

  RDMA(Remote Direct Memory Access)即远程直接内存访问,它可以把数据直接从一台计算机传输到另一台计算机,无需双方操作系统的介入。单一RDMA打造了高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。

  H100是英伟达专为处理大型语言模型数据而开发的芯片,每块芯片价格大概在3万美元左右NG体育,也就是说xAI这次建的超算中心仅是芯片的价值就高达30亿美元。

  此前,马斯克的xAI一直不温不火,xAI推出的人工智能Grok也经常被大家吐槽不好用,但以目前的状况来看,大模型训练就是一场算力游戏,再往下深究是能源游戏,而马斯克不愿意再等了,直接把料堆满。

  他表示,改进后的大模型(不出意外的线)会在今年年底完成,届时它将会是世界上最强大的AI。

  2014年的马斯克:我们正在召唤AI恶魔;2024年的马斯克:我要自己召唤AI恶魔!!|X@JoshWhiton

  其实,英伟达已经推出了新一代的H200芯片和基于Blackwell新架构的B100和B200 GPU,但是更先进的芯片要在今年年底才能出货,而且也不能一下变出几万张来,也许是为了抢在ChatGPT5之前成为世界最强,马斯克这次比平时更加大干快上。

  据福布斯称,今年3月马斯克才在孟菲斯敲定这项协议,之后这座超算基地几乎立即开工。为了加快速度,马斯克从甲骨文借了2.4万块H100。

  然而如前文所说,目前的大模型训练归根结底是能源游戏,而美国的电网系统相当陈旧,已经有几十年没有见证过大规模增长,尤其是AI训练的用电结构和民用商用电很不一样,经常会突然出现超高的用电波峰,极大地挑战电网的最大负荷。在这种情况下能挤出电力水力资源支持超算中心的地方所剩无几。

  据孟菲斯电力NG体育、天然气和水务公司的首席执行官估计,xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦,相当于10万户家庭的用电量。

  目前孟菲斯工厂有3.2万块GPU在线,预计今年第四季度供电建设将会完成,工厂将会全速运行。

  也难怪会有人质疑马斯克在撒谎,因为这个电力要求和这个建设速度实在是太不可思议了。

  后来质疑马斯克的人道歉了,他发现马斯克真的办到了|DylanPatel@X

  除了用电之外,xAI超算集群预计每天至少需要100万加仑(约379万升)的水来散热。

  据福布斯报道,孟菲斯市议会议员Pearl Walker上周表示:“民众很害怕。他们担心水资源可能出现问题,也担心能源供应出现问题。”她说,目前数据中心预计每天需要从孟菲斯的地下蓄水层NG体育,也就是该市的主要水源中抽取492万升(该市每天总共消耗大约5.68亿升水)NG体育。虽然他们说这只是暂时的,但新的灰水工厂的建造计划还没定,孟菲斯的公用事业部门也证实,在处理厂建成运行之前,马斯克的超级计算机将被允许使用地下蓄水层的水。

  除了马斯克,OpenAI和微软也在部署更大规模的超算,这台名叫“星际之门”的超算芯片数量会达到百万级,成本预计高达1150亿美元,计划在2028年推出。

  今年四月,OpenAI把微软电网搞崩溃了,据微软工程师说,他们当时正在为GPT-6部署10万个H100训练集群,不知道马斯克会不会成为第一个让10万个H100一起工作的人呢?

下一篇:英伟达版H20芯片也将对华禁售?NG体育官网app下载
上一篇:NG体育平台裕太微研发成果丰硕国产芯片将再添亮色

咨询我们

输入您的疑问及需求发送邮箱给我们