百模大战引爆“千卡集群竞赛”，“中国英伟达”交卷了

发布日期：2024-05-01 03:17 点击次数：151

大模子激勉AI算力荒，新一代千卡集群喂饱国产新苗子。

作家 | 三北

裁剪 | 漠影

大模子正激勉一波新的AI算力荒，从此前的芯片紧缺，高潮为AI算力集群级的饥渴症。

凭证产业链音信，参数可能仅30亿的Sora用4200-10500块H100测验了1个月；最新出炉的Llama 3 8B和70B的测验需要24000多块H100构成的集群；据称有1.8万亿参数的GPT-4是在10000-25000张A100上完成了测验……

OpenAI、Meta等齐在用数千卡、甚而万卡串联，满足不断攀升的大模子测验需求，也给了我国大模子企业一册可参考的算力账。

然而，多位GPU算力集群业内东说念主士告诉智东西，当下我国智能算力处于严重的供不应求情状。在GPU全球稀缺布景下，单卡性能已相对没那么要紧，通过集群互联完了举座算力的最大化，成为科罚AI算力荒的必要旅途。

策略也仍是紧锣密饱读地下发。4月24日，北京市经济和信息化局、北京市通讯管制局印发《北京市算力基础格式建造扩充决策（2024—2027年）》，决策提议，经兴建造撑持万亿级参数大模子测验需求的超大限制智算集群，并对采购自主可控GPU芯片开展智能算力事业的企业赐与维持。

产业这边的动作也莫得逾期。国内的头部算力厂商齐已加快布局大限制智算集群，比如云事业巨头华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心，头部AI芯片公司摩尔线程往日四个月也已在南京、北京亦庄和北京密云完成3座世界产千卡智算中心的落地，助国产大模子产业发展提速。

大模子产业发展对智算中心提议什么新条目？国内大限制智算中心建造的真实情况怎样？怎样让拔地而起的千卡甚而万卡集群完了从“建起来”到“用起来”的首先？本文试图从摩尔线程等公司的践诺，对这些问题进行探讨。

一、从Sora到Llama 3，千卡集群成百模大战标配

自2024年Sora、Claude 3、Llama 3等爆火模子推出以来，大模子的智能披露态势不减反增，推动国内大模子厂家加快追逐，对AI算力的需求也陆续升级。

国产大模子玩家不管是要陆续攀高Scaling Law（限制定律）岑岭，照旧走行业大模子的捷径，齐遑急需要更大限制算力；同期大模子向多模态场所发展，需要处理包括文本、图像、声息等多种类型的数据，亟需全功能的GPU；而行业大模子甚而需要算力厂商充任起“全栈式生态事业平台”变装，事业大模子落地的“临了一公里”。

在这些各类化新需求驱动下，将芯片系统组合起来的新式千卡智算中心，成为满足大模子产业落地的要紧捏手，也成为大国AI较量的标配新基建。

产业前锋仍是纷繁伸开步履，国内头部AI芯片公司摩尔线程在往日四个月里加快布局了三座千卡算力集群，通过自家夸娥（KUAE）智算中心科罚决策为大模子打造智算底座，开箱即用，助大模子企业科罚大限制GPU算力的建造和运营管制问题。

基于夸娥打造的智算中心仍是初见落地见效。当今，摩尔线程维持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模子的测验和微调。基于摩尔线程夸娥千卡集群，70B到130B参数的大模子测验，线性加快比均可达到91%，算力欺诈率基本保持不变。

以2000亿测验数据量为例，智源盘考院700亿参数Aquila2可在33天完成测验；1300亿参数限制的模子可在56天完成测验。此外，摩尔线程夸娥千卡集群维持万古候邻接褂讪运行，维持断点续训，异步Checkpoint少于2分钟。

从传统的“重硬轻软”走向“软硬一体化”，成为这批新智算集群的迢遥性情。摩尔线程夸娥就是一个软硬一体化的全栈科罚决策，包括基础格式、集群管制平台及模子事业，据称可全场所贬低传统算力建造、应用设备和运维运营平台搭建的时候本钱。

54位大咖演讲精华！中国生成式AI大会圆满收官，TOP50企业榜单揭晓

▲夸娥（KUAE）智算中心科罚决策架构

基础格式：包含夸娥计划集群、RDMA集会与散播式存储。摩尔线程夸娥千卡模子测验平台，建造周期只需30天，维持千亿参数模子的预测验、微融合推理，可完了高达91%的千卡集群性能彭胀统统。基于MTT S4000和双路8卡GPU事业器MCCX D800，摩尔线程夸娥集群维持从单机多卡到多机多卡，从单卡到千卡集群的无缝彭胀，改日将推出更大限制的集群，以满足更大限制的大模子测验需求。

KUAE Platform集群管制平台：用于AI大模子测验、散播式图形渲染、流媒体处理和科学计划的软硬件一体化平台，深度集周详功能GPU计划、集会和存储，提供高可靠、高算力事业。通过该平台，用户可活泼管制多数据中心、多集群算力资源，集成多维度运维监控、告警和日记系统，匡助智算中心完了运维自动化。

KUAE ModelStudio模子事业：隐敝大模子预测验、微融合推理全过程，维持整个主流开源大模子。通过摩尔线程MUSIFY设备器具，不错松驰复用CUDA应用生态，内置的容器化科罚决策，则可完了API一键部署。该平台意在提供大模子生命周期管制，通过简陋、易操作的交互界面，用户可按需组织使命流，大幅贬低大模子的使用门槛。

▲夸娥（KUAE）智算中心科罚决策维持端到端一体化委派

二、从“建起来”到“用起来”，夸娥突破4说念难关

往日一年，我国千P级智算中心的智算基建布局聚会爆发，凭证工信部发布数据，胁制2023年10月我国算力限制超300EFLOPS，智能算力占比高达35%。然而，国内的千卡智算中心仍处于发展初期，濒临严峻挑战。

多位智算业内东说念主士告诉智东西，我国智算中心建造既濒临算力供应链问题，同期大限制内网互联、存储高速浑沌、模子优化事业、平台生态事业等技能要素也酿成智算平台建造的技能瓶颈。

摩尔线程关系郑重东说念主谈说念，集群建造是一个系统性复杂工程，从GPU显卡到事业器，临了把它构成集群，这内部包括了硬件的集会、存储、软件，再到大模子治愈，是一个全栈式的工程，要真的把它作念好，需要一个端到端的交钥匙决策。

从客户角度来讲，他们对千卡集群的算力欺诈率、褂讪性、可彭胀性和兼容性的需求最为凸起。这也成为千卡集群建造要迈过的四说念难关，摩尔线程为此作念足了准备。

1、软硬协同，算力欺诈率晋升超50%

算力欺诈率（MFU）是预想智算中心智商的一个中枢方针。即即是OpenAI在早期也濒临MFU瓶颈，凭证公开贵府，其MFU在GPT-3测验阶段仅为21.3%，炒股的近79%的算力齐被阔绰了。

摩尔线程选择软硬协同缱绻、端到端的并行策略，使得详细调优下算力欺诈率（MFU）晋升幅度卓越50%。夸娥通过集群通讯库算法、集会拓扑、硬件规格合理缱绻和树立，优化集群匹配度；技能上，夸娥集群通讯算法集会拓扑详细欺诈了MTLink和PCIe，使得通讯性能晋升一倍。

2、从芯片出厂启动，保证褂讪可靠性

关于散播式测验而言，一张卡坏了，整个这个词测验齐会停掉。关于一个大限制集群来说，举例千卡甚而更大的集群，卡坏的概率会更高。是以，在作念千卡集群或者更大限制集群时，它对整个这个词集群的可靠性条目会更高。

摩尔线程从卡的出厂启动保证算力质料，作念了许多严格的测试；设备了集群系统监控和会诊器具，匡助筛选和快速定位到有问题的卡和事业器，不错自动复原和硬件替换；作念了checkpoint加快，写的时候从10分钟降到秒级，读的速率从40分钟降到2分钟；判断测验突出，系统自动从头拉起。

3、提高可彭胀性，线性加快比达91%

算力集群限制达到千卡，更是一个可彭胀性的挑战。夸娥维持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流散播式框架，并交融了多种并行算法策略，包括数据并行、张量并行、活水线并行和ZeRO，且针对高效通讯计划并行和Flash Attention作念了特殊优化。

同期，夸娥联结了摩尔线程显卡硬件智商，以软硬一体的方式，作念了系统级优化，包括从硬件、软件再到集群，外加云的全栈，不是单点突破，是一种全局详细决策，从而使得线性加快比达到91%。

4、零本钱CUDA代码移植，兼容多个主流大模子

基于摩尔线程代码移植Musify器具，可快速将现存的主流挪动至MUSA，零本钱完成CUDA代码自动移植，之后用户短时候内即可完成热门分析和针对性优化，大大裁汰挪动优化的周期。此外，借助摩尔线程元计划合并系统架构MUSA，用户不错复用PyTorch开源社区的大量模子算子，贬低设备本钱。

与此同期，摩尔线程开源的MT Pytorch不错维持多种模子的推理，隐敝CV、NLP、语音等多个规模，大略运行典型的大模子散播式多卡推理，也不错维持单机多卡与多机多卡的散播式测验。欺诈数据并行、模子并行以及ZERO等散播式测验技能，MT PyTorch还不错完成简便基础模子以及典型Transformer结构的NLP说话模子的测验。

▲夸娥（KUAE）智算中心科罚决策八大上风

总的来说，传统的计划模式在大模子期间濒临着多重难点，只须长期插足并加强架构翻新、软硬联结、场景联结、兼容协同等举措，技艺够让智算集群完成从“建起来”到“用起来”的首先。

三、国产大模子的超车时刻，“中国英伟达”交卷

冲破英伟达对AI的把持，国表里玩家齐进入了一个“交卷”时刻。

在外洋，咱们看到亚马逊、微软、谷歌齐已推出了面向大模子的AI定制芯片，对英伟达芯片进行部分替代，从而保证自家大模子陆续可迭代和落地。

在国内，华为、摩尔线程、寒武纪、海光等头部AI芯片厂商，软硬件生态也已初具限制，技能架构自成一体，且已领有集群智商和落地场景；同期多家AI芯片创企也在推动家具落地和量产，霸占大模子阛阓。

在备受怜惜的国产GPU规模，摩尔线程行动“中国英伟达”的主力选手，也仍是打造了全栈AI方面的护城河。以全功能GPU为算力底座，摩尔线程夸娥提供从卡（MTT S4000）、事业器（MCCX D800）到千卡集群（K1、K2、K3）的完满智算家具组合，通过软硬一体化的事业，将成为大模子企业的最好遴荐之一。

近日，摩尔线程正与无问芯穹合伙推动基于夸娥千卡集群的“MT-infini-3B”和洽大模子实训，当今性能已在同限制模子中踏进前哨。无问芯穹合伙首创东说念主兼CEO夏立雪示意：“经无问芯穹Infini-AI平台实训与合伙优化使命考据，摩尔线程夸娥千卡智算集群在精度、性能、易用性和算力欺诈率上均有优异阐扬，且在实训中完了了万古候褂讪测验不中断，已不错为千亿参数级别大模子测验提供陆续高效的高性能算力维持。之后咱们会把这一和洽模子在Infini-AI上绽放给全球使用。”

跟着本年“AI+”初次被写入两会使命理会，AI算力成为新质坐蓐力的要紧引擎，国产大模子进入关键的超车时刻。业内东说念主士告诉智东西，本年大模子会出现一个拐点，同期亦然国产AI芯片的分水岭，硬汉越强，弱者愈弱。

摩尔线程自2022年起就确立云计划团队，设定了建造千卡集群的大场所。在其时A100等算力病笃的布景下，摩尔线程行动在功能上唯独对标英伟达的国产GPU企业，在具备云的全栈智商后，构建基于全功能GPU的国产千卡智算集群，成为了国内赛说念“第一批吃螃蟹的东说念主”。跟着大模子的爆发，摩尔线程夸娥智算中心科罚决策仍是完成从0到1的建造，有望成为国产大模子发展的要紧引擎助力。

结语：国产大模子首先时，千卡集群打造加快度

从ChatGPT到Sora，大模子之战仍是愈演愈烈，国产大模子遑急需要加快追逐跨甚而超越，这催生了阛阓对更大限制、更高性能的计划资源的遑急需求，也推动计划中心的架构及运营模式进行更新换代。

千卡集群、万卡集群是满足AI算力需求的捏手，这一理念已逐渐深化东说念主心。然而这种大限制智算集群的隐形壁垒越来越高，条目算力厂家在芯片、调优、通讯及系统性设备和管制等多方面下功夫，从而真的跑出大模子产业发展的加快度。

上一篇：4月25日众和转债下落1.22%，转股溢价率15.73%
下一篇：2024年4月28日山东青岛平度市南村蔬菜批发市集价钱行情

股票杠杆

百模大战引爆“千卡集群竞赛”，“中国英伟达”交卷了