5月19日,面向大模型訓練用戶數(shù)據(jù)的高安全需求,中國移動研究院原創(chuàng)提出基于HIC-OTN(Hitless Intelligent Computing OTN,無損智算OTN)的新型存算拉遠技術(shù)架構(gòu),并聯(lián)合中國移動湖北公司、華為技術(shù)有限公司在中國移動智算中心(武漢)完成了業(yè)界首次HIC-OTN承載存算拉遠240公里現(xiàn)網(wǎng)技術(shù)試驗,構(gòu)建了用戶數(shù)據(jù)本地化的高安全大模型訓練新范式,在基于流水并行(PP)的千億級參數(shù)大模型現(xiàn)網(wǎng)240公里智算互聯(lián)下實現(xiàn)了等同單節(jié)點訓練效率99%以上的高效訓練,是探索智算中心技術(shù)和業(yè)務(wù)應用發(fā)展的重要里程碑。
伴隨大模型技術(shù)的跨越式發(fā)展,千行百業(yè)的智能化轉(zhuǎn)型升級需求爆發(fā)涌現(xiàn)。但是,大模型訓練的算力需求越來越高,國內(nèi)外大型科技公司投建超萬卡甚至超十萬卡集群,不僅建設(shè)投入成本高,還需要破解提升大規(guī)模算力使用效率的技術(shù)難題。廣大中小微行業(yè)用戶難以跨越自建大型智算中心的投入和技術(shù)門檻,而租用智算服務(wù)又面臨自身私密數(shù)據(jù)傳輸至外部智算中心進行大模型訓練的安全風險,導致迫切的AI賦能需求與應用落地規(guī)模的嚴重失配。
中國移動研究院提出了基于HIC-OTN的存算拉遠原創(chuàng)技術(shù)架構(gòu),在用戶側(cè)部署“微算力”作為數(shù)據(jù)訓練的入口,將訓練流程進行切分,用戶數(shù)據(jù)仍存儲在本地,僅通過HIC-OTN傳遞模型訓練中間值至服務(wù)商智算中心的“大算力”進行訓練,同時滿足了用戶大模型訓練的低成本、高安全需求。其中,面向存算拉遠后對傳輸網(wǎng)絡(luò)的高可靠需求,創(chuàng)新HIC-OTN無損傳輸機制,重構(gòu)設(shè)備轉(zhuǎn)發(fā)和存儲功能,實現(xiàn)由傳統(tǒng)OTN保護倒換50ms業(yè)務(wù)中斷到“0丟包”的性能提升。在此次業(yè)界首次HIC-OTN承載存算拉遠240公里現(xiàn)網(wǎng)技術(shù)試驗中,在用戶側(cè)部署16張GPU卡作為千億級參數(shù)大模型PP訓練的入口,在運營商智算中心部署48張GPU卡進行集中化、規(guī);柧,相距240公里的兩端通過800G HIC-OTN進行大帶寬、無損互聯(lián),拉遠后的協(xié)同訓練效率達到等效單集群訓練效率99%以上。
中國移動研究院段曉東副院長表示,基于HIC-OTN的存算拉遠原創(chuàng)技術(shù)架構(gòu)是面向中小微行業(yè)用戶大模型訓練需求的全新探索,有望形成智算普惠發(fā)展的技術(shù)和應用新范式,本次試驗基于HIC-OTN新型技術(shù)體系在超大帶寬、超低時延、超高可靠光傳輸的技術(shù)優(yōu)勢,訓練效率等同單節(jié)點訓練99%以上,實現(xiàn)了用戶側(cè)“微算力”與服務(wù)商“大算力”的高效協(xié)同。
中國移動面向AI賦能千行百業(yè),持續(xù)推進原創(chuàng)技術(shù)創(chuàng)新和發(fā)展。本次試驗有力探索和驗證了基于HIC-OTN的存算拉遠技術(shù)架構(gòu)的可行性和先進性,后續(xù)將繼續(xù)推進產(chǎn)學研多專業(yè)在智算協(xié)同光互聯(lián)技術(shù)方面的深度協(xié)同,以構(gòu)建技術(shù)先進網(wǎng)絡(luò)助力AI高速發(fā)展。