的万卡超级集群上线,马斯克亲自在工厂接光纤
没有10万卡集群别想上台桌,超级数据中心竞赛已经打响。
//
马斯克的超级AI工厂
埃隆·马斯克今天宣布:“在xAI团队、X团队、Nvidia和支持公司所做的出色工作下,孟菲斯超级集群培训于当地时间凌晨4:20开始。
单个RDMA结构上有100k个液冷H100,这是世界上最强大的AI训练集群!”
他还补充道:“这对于在今年12月之前训练出世界上各方面最强大的人工智能来说是一个显著的优势。”
今年5月,xAI宣布完成60亿美元B轮融资,这是继OpenAI获得微软100亿美元后,大模型领域单笔融资额最大的交易。
融资这么多之后做什么?当然是买GPU,建造超级数据中心。
xAI的超级数据中心,似乎是在2个月左右的时间完成的。今年6月初,xAI官方放出了一组超级工厂开工前的照片,并发出了招聘贴:
“六月如何开始以及接下来如何?
如果您喜欢构建和运行世界上最大的计算机,请加入xAI&!”
一周前,xAI发布了一张马斯克在工厂接光纤的照片。现在来看,是在为工厂竣工做预热。
xAI的超级数据中心是谁来建设的?最早有消息称,xAI的超级数据中心所会与Oracle合作,但后来改为了戴尔科技与超微电脑(Supermicro)。
6月19日,戴尔科技CEOMichaelDell宣布,戴尔科技正在建设一个戴尔人工智能工厂,用英伟达芯片为为xAI何马斯克提供动力。
7月2日,的万卡超级集群上线,马斯克亲自在工厂接光纤超微电脑CEOCharlesLiang发文感谢马斯克将液体冷却技术引入大型AI数据中心!这可能有助于为我们的地球保护200亿棵树,同时附上了一张两人站在数据中心旁的照片。
(不禁想起了陈奕迅的歌词:那年十八母校舞会站着如喽啰,那时候我含泪发誓各位必须看到我...)
数据中心竞赛
数据中心就是超级计算机,这场竞争已经由马斯克打响!
7月8日,红杉资本发文预测,表示“2025年将是“数据中心之年”,我们正处于从炒作周期向工业驱动建设周期过渡的风口浪尖。
以下是去年宣布的新数据中心项目的摘要——红杉认为这些项目的建设现在将会加速:
亚马逊:2024年上半年,AWS宣布了500亿美元的新数据中心项目,其中包括216栋新建筑。总体而言,亚马逊已承诺在未来15年内投资1000-1500亿美元。最近的承诺包括:在印第安纳州投资110亿美元建设园区,在密西西比州投资100亿美元建设两个园区,在沙特阿拉伯投资53亿美元建设新数据中心,在宾夕法尼亚州塞勒姆附近建设新的核动力数据中心,在德克萨斯州朗德罗克附近规划建设新的数据中心,以及在日本投资150亿美元。德国、台湾和新加坡也在考虑建设新项目。
微软:微软目前拥有5GW的能源容量,据报道,2024年新数据中心建设将增加一倍。最近宣布的包括:威斯康星州芒特普莱森特33亿美元、印第安纳州西北部10亿美元、乔治亚州弗洛伊德县10亿美元、法国43亿美元、德国35亿美元、英国32亿美元、瑞典32亿美元、西班牙21亿美元、马来西亚22亿美元、印度尼西亚17亿美元、肯尼亚10亿美元以及墨西哥的新数据中心。有报道称,星际之门数据中心的投资额为1000亿美元,但尚未得到证实。
谷歌:谷歌是三家云提供商中规模最小的,而且差距很大。GCP长期以来一直宣称它更适合AI公司。现在,这一说法正在接受考验。谷歌正在印第安纳州建设一个价值20亿美元的新数据中心,在密苏里州堪萨斯城建设一个价值10亿美元的数据中心,在芬兰建设一个价值11亿美元的数据中心,在爱荷华州锡达拉皮兹建设一个价值5.76亿美元的数据中心。谷歌还面临着在某些站点扩展自己的TPU集群的额外挑战。
Meta:Meta不经营云业务,但一直在扩大其数据中心容量以支持Llama和其他内部AI计划。Meta最近宣布,它已积累了35万个H100GPU,而其总H100数量为60万个。该公司还宣布了两个专门用于Llama3训练的24kGPU集群。Meta正在筹建四个新的数据中心,包括爱达荷州库纳、德克萨斯州坦普尔、爱荷华州达文波特和怀俄明州夏延。
对于这一趋势,红杉资本做出了五大预测:
人工智能将催化能源转型。新的太阳能建筑、电池创新、核能复苏——这些将是人工智能浪潮的长期影响
一些超大规模企业会发现,他们不够灵活,无法满足快速变化的数据中心需求——新的工业人工智能参与者将出现来填补这一空白
从未来6个月开始,由于液体冷却、集群规模和电源接入问题,数据中心建设将出现大量延迟报道
建设新的人工智能数据中心所需的工业能力将起到刺激经济的作用,并在实体经济中创造就业机会:钢铁、能源、卡车运输和建筑
当新的数据中心容量上线时,AWS、Azure和GCP提供的训练和推理成本将会下降,这对初创公司有利
END.
评论