百模大战引爆“千卡集群竞赛”,“中国英伟达”交卷了

发布日期:2024-05-01 03:17    点击次数:144
大模子激勉AI算力荒,新一代千卡集群喂饱国产新苗子。

作家 | 三北

裁剪 | 漠影

大模子正激勉一波新的AI算力荒,从此前的芯片紧缺,高潮为AI算力集群级的饥渴症。

凭证产业链音信,参数可能仅30亿的Sora用4200-10500块H100测验了1个月;最新出炉的Llama 3 8B和70B的测验需要24000多块H100构成的集群;据称有1.8万亿参数的GPT-4是在10000-25000张A100上完成了测验……

OpenAI、Meta等齐在用数千卡、甚而万卡串联,满足不断攀升的大模子测验需求,也给了我国大模子企业一册可参考的算力账。

然而,多位GPU算力集群业内东说念主士告诉智东西,当下我国智能算力处于严重的供不应求情状。在GPU全球稀缺布景下,单卡性能已相对没那么要紧,通过集群互联完了举座算力的最大化,成为科罚AI算力荒的必要旅途。

策略也仍是紧锣密饱读地下发。4月24日,北京市经济和信息化局、北京市通讯管制局印发《北京市算力基础格式建造扩充决策(2024—2027年)》,决策提议,经兴建造撑持万亿级参数大模子测验需求的超大限制智算集群,并对采购自主可控GPU芯片开展智能算力事业的企业赐与维持。

产业这边的动作也莫得逾期。国内的头部算力厂商齐已加快布局大限制智算集群,比如云事业巨头华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心,头部AI芯片公司摩尔线程往日四个月也已在南京、北京亦庄和北京密云完成3座世界产千卡智算中心的落地,助国产大模子产业发展提速。

大模子产业发展对智算中心提议什么新条目?国内大限制智算中心建造的真实情况怎样?怎样让拔地而起的千卡甚而万卡集群完了从“建起来”到“用起来”的首先?本文试图从摩尔线程等公司的践诺,对这些问题进行探讨。

一、从Sora到Llama 3,千卡集群成百模大战标配

自2024年Sora、Claude 3、Llama 3等爆火模子推出以来,大模子的智能披露态势不减反增,推动国内大模子厂家加快追逐,对AI算力的需求也陆续升级。

国产大模子玩家不管是要陆续攀高Scaling Law(限制定律)岑岭,照旧走行业大模子的捷径,齐遑急需要更大限制算力;同期大模子向多模态场所发展,需要处理包括文本、图像、声息等多种类型的数据,亟需全功能的GPU;而行业大模子甚而需要算力厂商充任起“全栈式生态事业平台”变装,事业大模子落地的“临了一公里”。

在这些各类化新需求驱动下,将芯片系统组合起来的新式千卡智算中心,成为满足大模子产业落地的要紧捏手,也成为大国AI较量的标配新基建。

产业前锋仍是纷繁伸开步履,国内头部AI芯片公司摩尔线程在往日四个月里加快布局了三座千卡算力集群,通过自家夸娥(KUAE)智算中心科罚决策为大模子打造智算底座,开箱即用,助大模子企业科罚大限制GPU算力的建造和运营管制问题。

基于夸娥打造的智算中心仍是初见落地见效。当今,摩尔线程维持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模子的测验和微调。基于摩尔线程夸娥千卡集群,70B到130B参数的大模子测验,线性加快比均可达到91%,算力欺诈率基本保持不变。

以2000亿测验数据量为例,智源盘考院700亿参数Aquila2可在33天完成测验;1300亿参数限制的模子可在56天完成测验。此外,摩尔线程夸娥千卡集群维持万古候邻接褂讪运行,维持断点续训,异步Checkpoint少于2分钟。

从传统的“重硬轻软”走向“软硬一体化”,成为这批新智算集群的迢遥性情。摩尔线程夸娥就是一个软硬一体化的全栈科罚决策,包括基础格式、集群管制平台及模子事业,据称可全场所贬低传统算力建造、应用设备和运维运营平台搭建的时候本钱。

54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓

▲夸娥(KUAE)智算中心科罚决策架构

基础格式:包含夸娥计划集群、RDMA集会与散播式存储。摩尔线程夸娥千卡模子测验平台,建造周期只需30天,维持千亿参数模子的预测验、微融合推理,可完了高达91%的千卡集群性能彭胀统统。基于MTT S4000和双路8卡GPU事业器MCCX D800,摩尔线程夸娥集群维持从单机多卡到多机多卡,从单卡到千卡集群的无缝彭胀,改日将推出更大限制的集群,以满足更大限制的大模子测验需求。

KUAE Platform集群管制平台:用于AI大模子测验、散播式图形渲染、流媒体处理和科学计划的软硬件一体化平台,深度集周详功能GPU计划、集会和存储,提供高可靠、高算力事业。通过该平台,用户可活泼管制多数据中心、多集群算力资源,集成多维度运维监控、告警和日记系统,匡助智算中心完了运维自动化。

KUAE ModelStudio模子事业:隐敝大模子预测验、微融合推理全过程,维持整个主流开源大模子。通过摩尔线程MUSIFY设备器具,不错松驰复用CUDA应用生态,内置的容器化科罚决策,则可完了API一键部署。该平台意在提供大模子生命周期管制,通过简陋、易操作的交互界面,用户可按需组织使命流,大幅贬低大模子的使用门槛。

▲夸娥(KUAE)智算中心科罚决策维持端到端一体化委派

二、从“建起来”到“用起来”,夸娥突破4说念难关

往日一年,我国千P级智算中心的智算基建布局聚会爆发,凭证工信部发布数据,胁制2023年10月我国算力限制超300EFLOPS,智能算力占比高达35%。然而,国内的千卡智算中心仍处于发展初期,濒临严峻挑战。

多位智算业内东说念主士告诉智东西,我国智算中心建造既濒临算力供应链问题,同期大限制内网互联、存储高速浑沌、模子优化事业、平台生态事业等技能要素也酿成智算平台建造的技能瓶颈。

摩尔线程关系郑重东说念主谈说念,集群建造是一个系统性复杂工程,从GPU显卡到事业器,临了把它构成集群,这内部包括了硬件的集会、存储、软件,再到大模子治愈,是一个全栈式的工程,要真的把它作念好,需要一个端到端的交钥匙决策。

从客户角度来讲,他们对千卡集群的算力欺诈率、褂讪性、可彭胀性和兼容性的需求最为凸起。这也成为千卡集群建造要迈过的四说念难关,摩尔线程为此作念足了准备。

1、软硬协同,算力欺诈率晋升超50%

算力欺诈率(MFU)是预想智算中心智商的一个中枢方针。即即是OpenAI在早期也濒临MFU瓶颈,凭证公开贵府,其MFU在GPT-3测验阶段仅为21.3%,炒股的近79%的算力齐被阔绰了。

摩尔线程选择软硬协同缱绻、端到端的并行策略,使得详细调优下算力欺诈率(MFU)晋升幅度卓越50%。夸娥通过集群通讯库算法、集会拓扑、硬件规格合理缱绻和树立,优化集群匹配度;技能上,夸娥集群通讯算法集会拓扑详细欺诈了MTLink和PCIe,使得通讯性能晋升一倍。

2、从芯片出厂启动,保证褂讪可靠性

关于散播式测验而言,一张卡坏了,整个这个词测验齐会停掉。关于一个大限制集群来说,举例千卡甚而更大的集群,卡坏的概率会更高。是以,在作念千卡集群或者更大限制集群时,它对整个这个词集群的可靠性条目会更高。

摩尔线程从卡的出厂启动保证算力质料,作念了许多严格的测试;设备了集群系统监控和会诊器具,匡助筛选和快速定位到有问题的卡和事业器,不错自动复原和硬件替换;作念了checkpoint加快,写的时候从10分钟降到秒级,读的速率从40分钟降到2分钟;判断测验突出,系统自动从头拉起。

3、提高可彭胀性,线性加快比达91%

算力集群限制达到千卡,更是一个可彭胀性的挑战。夸娥维持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流散播式框架,并交融了多种并行算法策略,包括数据并行、张量并行、活水线并行和ZeRO,且针对高效通讯计划并行和Flash Attention作念了特殊优化。

同期,夸娥联结了摩尔线程显卡硬件智商,以软硬一体的方式,作念了系统级优化,包括从硬件、软件再到集群,外加云的全栈,不是单点突破,是一种全局详细决策,从而使得线性加快比达到91%。

4、零本钱CUDA代码移植,兼容多个主流大模子

基于摩尔线程代码移植Musify器具,可快速将现存的主流挪动至MUSA,零本钱完成CUDA代码自动移植,之后用户短时候内即可完成热门分析和针对性优化,大大裁汰挪动优化的周期。此外,借助摩尔线程元计划合并系统架构MUSA,用户不错复用PyTorch开源社区的大量模子算子,贬低设备本钱。

与此同期,摩尔线程开源的MT Pytorch不错维持多种模子的推理,隐敝CV、NLP、语音等多个规模,大略运行典型的大模子散播式多卡推理,也不错维持单机多卡与多机多卡的散播式测验。欺诈数据并行、模子并行以及ZERO等散播式测验技能,MT PyTorch还不错完成简便基础模子以及典型Transformer结构的NLP说话模子的测验。

▲夸娥(KUAE)智算中心科罚决策八大上风

总的来说,传统的计划模式在大模子期间濒临着多重难点,只须长期插足并加强架构翻新、软硬联结、场景联结、兼容协同等举措,技艺够让智算集群完成从“建起来”到“用起来”的首先。

三、国产大模子的超车时刻,“中国英伟达”交卷

冲破英伟达对AI的把持,国表里玩家齐进入了一个“交卷”时刻。

在外洋,咱们看到亚马逊、微软、谷歌齐已推出了面向大模子的AI定制芯片,对英伟达芯片进行部分替代,从而保证自家大模子陆续可迭代和落地。

在国内,华为、摩尔线程、寒武纪、海光等头部AI芯片厂商,软硬件生态也已初具限制,技能架构自成一体,且已领有集群智商和落地场景;同期多家AI芯片创企也在推动家具落地和量产,霸占大模子阛阓。

在备受怜惜的国产GPU规模,摩尔线程行动“中国英伟达”的主力选手,也仍是打造了全栈AI方面的护城河。以全功能GPU为算力底座,摩尔线程夸娥提供从卡(MTT S4000)、事业器(MCCX D800)到千卡集群(K1、K2、K3)的完满智算家具组合,通过软硬一体化的事业,将成为大模子企业的最好遴荐之一。

近日,摩尔线程正与无问芯穹合伙推动基于夸娥千卡集群的“MT-infini-3B”和洽大模子实训,当今性能已在同限制模子中踏进前哨。无问芯穹合伙首创东说念主兼CEO夏立雪示意:“经无问芯穹Infini-AI平台实训与合伙优化使命考据,摩尔线程夸娥千卡智算集群在精度、性能、易用性和算力欺诈率上均有优异阐扬,且在实训中完了了万古候褂讪测验不中断,已不错为千亿参数级别大模子测验提供陆续高效的高性能算力维持。之后咱们会把这一和洽模子在Infini-AI上绽放给全球使用。”

跟着本年“AI+”初次被写入两会使命理会,AI算力成为新质坐蓐力的要紧引擎,国产大模子进入关键的超车时刻。业内东说念主士告诉智东西,本年大模子会出现一个拐点,同期亦然国产AI芯片的分水岭,硬汉越强,弱者愈弱。

摩尔线程自2022年起就确立云计划团队,设定了建造千卡集群的大场所。在其时A100等算力病笃的布景下,摩尔线程行动在功能上唯独对标英伟达的国产GPU企业,在具备云的全栈智商后,构建基于全功能GPU的国产千卡智算集群,成为了国内赛说念“第一批吃螃蟹的东说念主”。跟着大模子的爆发,摩尔线程夸娥智算中心科罚决策仍是完成从0到1的建造,有望成为国产大模子发展的要紧引擎助力。

结语:国产大模子首先时,千卡集群打造加快度

从ChatGPT到Sora,大模子之战仍是愈演愈烈,国产大模子遑急需要加快追逐跨甚而超越,这催生了阛阓对更大限制、更高性能的计划资源的遑急需求,也推动计划中心的架构及运营模式进行更新换代。

千卡集群、万卡集群是满足AI算力需求的捏手,这一理念已逐渐深化东说念主心。然而这种大限制智算集群的隐形壁垒越来越高,条目算力厂家在芯片、调优、通讯及系统性设备和管制等多方面下功夫,从而真的跑出大模子产业发展的加快度。