香港三级日本三级a视频,日韩亚洲欧美中文在线,色综合天天综合高清网国产在线,日韩欧美群交p片內射中文,天天夜碰日日摸日日澡性色av

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先

2024-09-20 16:04:50 213觀看

9月20日消息,中國(guó)電信宣布,天翼云自研的國(guó)內(nèi)首個(gè)單集群萬卡國(guó)產(chǎn)化全功能預(yù)訓(xùn)練云服務(wù)平臺(tái),已經(jīng)正式發(fā)布上線,基于華為昇騰芯片,并完成了萬卡規(guī)模Llama3.1-405B大模型訓(xùn)練。l8q驛資訊

Llama3.1-405B作為4000億參數(shù)規(guī)模的大模型,在息壤訓(xùn)推服務(wù)平臺(tái)的支持下,經(jīng)過多輪優(yōu)化,MFU(算力利用率)達(dá)到國(guó)內(nèi)領(lǐng)先水平。l8q驛資訊

另外,700億參數(shù)大模型Llama2-70B在萬卡規(guī)模下完成訓(xùn)練,MFU也處于業(yè)界領(lǐng)先水平。l8q驛資訊

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型l8q驛資訊

據(jù)悉,天翼云的這套平臺(tái)具備萬卡納管和并行訓(xùn)練能力,基于HPFS PB級(jí)并行文件系統(tǒng)、CTCCL RDMA高速卡間互聯(lián)技術(shù)、Gang策略與拓?fù)涓兄闹撬闳萜髡{(diào)度,以及慧聚自研分布式訓(xùn)練框架TeleFormers和平臺(tái),實(shí)現(xiàn)萬卡資源納管、萬卡規(guī)模并行訓(xùn)練。l8q驛資訊

其中,天翼云自研了AI框架Teleformers,對(duì)算子、通信、數(shù)據(jù)處理進(jìn)行優(yōu)化,還有并行策略的自適應(yīng)調(diào)整,顯著提升了大模型訓(xùn)練的訓(xùn)練效率。l8q驛資訊

在目前業(yè)內(nèi)大參數(shù)規(guī)模開源單體稠密模型Llama3.1-405B大模型訓(xùn)練測(cè)試中,性能表現(xiàn)達(dá)到國(guó)際同等水平。l8q驛資訊

算子優(yōu)化方面,針對(duì)昇騰芯片的特性,在網(wǎng)絡(luò)結(jié)構(gòu)層面對(duì)諸多高頻算子進(jìn)行了定制化改造,構(gòu)建了高性能算子集。l8q驛資訊

比如matmul算子,利用昇騰芯片的計(jì)算親和性,將算子輸入padding到特定的維度,大幅提升執(zhí)行效率,從而明顯縮短了訓(xùn)練時(shí)間。l8q驛資訊

數(shù)據(jù)處理和流水線方面,通過設(shè)置合理的數(shù)據(jù)分片策略和HPFS條帶化優(yōu)化,結(jié)合數(shù)據(jù)預(yù)取與數(shù)據(jù)下沉技術(shù),大幅提升數(shù)據(jù)流的處理效率和穩(wěn)定性;對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行了二次分片并提供就近緩存能力,減少GPU空閑時(shí)間。l8q驛資訊

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型l8q驛資訊

自適應(yīng)并行策略方面,基于對(duì)3D并行中各類計(jì)算單元的分析,天翼云設(shè)計(jì)了多種自適應(yīng)的3D并行策略,依據(jù)模型規(guī)模和硬件資源的不同可以自動(dòng)選擇合適的并行策略,充分利用計(jì)算資源和顯存資源,縮短模型訓(xùn)練中每輪的迭代時(shí)間。l8q驛資訊

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型l8q驛資訊

天翼云國(guó)產(chǎn)化萬卡智算中心還有多項(xiàng)技術(shù)突破——l8q驛資訊

天翼云息壤訓(xùn)練服務(wù)平臺(tái)基于軟硬件協(xié)同設(shè)計(jì),提供全鏈路故障監(jiān)控、基于主動(dòng)感知的全鏈路故障監(jiān)控和定位、CheckPoint秒級(jí)多級(jí)高速存儲(chǔ)系統(tǒng)、容錯(cuò)優(yōu)雅調(diào)度和模型編譯緩存等系統(tǒng),將萬卡規(guī)模故障發(fā)現(xiàn)和解決問題縮短到業(yè)內(nèi)前沿的分鐘級(jí),大幅提升有效訓(xùn)練時(shí)間。l8q驛資訊

自動(dòng)斷點(diǎn)續(xù)訓(xùn)系統(tǒng):l8q驛資訊

建設(shè)豐富的故障庫(kù),基于此構(gòu)建了多維故障感知系統(tǒng),能夠快速主動(dòng)感知相關(guān)故障事件和潛在的故障風(fēng)險(xiǎn);l8q驛資訊

通過精準(zhǔn)的故障隔離和調(diào)度手段,快速隔離處理故障節(jié)點(diǎn)并重新調(diào)度新節(jié)點(diǎn)接手任務(wù)繼續(xù)訓(xùn)練,實(shí)現(xiàn)無人干預(yù)式斷點(diǎn)續(xù)訓(xùn),有效減少GPU閑置時(shí)間。l8q驛資訊

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型l8q驛資訊

高速多級(jí)CheckPoint系統(tǒng):l8q驛資訊

天翼云設(shè)計(jì)基于多級(jí)存儲(chǔ)的高速CheckPoint系統(tǒng),通過兩階段異步存儲(chǔ),實(shí)現(xiàn)高速寫入內(nèi)存,并終異步寫入遠(yuǎn)端系統(tǒng);l8q驛資訊

針對(duì)斷點(diǎn)恢復(fù)場(chǎng)景,提供進(jìn)程級(jí)故障原地快恢和遠(yuǎn)端快速恢復(fù)能力,終實(shí)現(xiàn)對(duì)CheckPoint的秒級(jí)讀寫能力,大幅降低斷點(diǎn)恢復(fù)時(shí)間、提升訓(xùn)練效率。l8q驛資訊

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型l8q驛資訊

全鏈路檢測(cè)工具鏈:l8q驛資訊

天翼云開發(fā)了全鏈路故障監(jiān)控工具鏈,能夠基于主動(dòng)感知實(shí)現(xiàn)全鏈路的故障監(jiān)控和定位。l8q驛資訊

該工具鏈可以主動(dòng)發(fā)現(xiàn)設(shè)備故障,并降低訓(xùn)練中斷的頻次,確保訓(xùn)練過程的連續(xù)性和穩(wěn)定性。l8q驛資訊

本文鏈接:http://www.7280.com.cn/news-132091.html中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先

標(biāo)簽:
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com。天上從來不會(huì)掉餡餅,請(qǐng)大家時(shí)刻謹(jǐn)防詐騙