華為今日正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇騰的模型推理技術(shù)。
華為表示:“此舉是華為踐行昇騰生態(tài)戰(zhàn)略的又一關鍵舉措,推動大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進人工智能在千行百業(yè)的應用與價值創(chuàng)造。”
根據(jù)華為官網(wǎng)顯示:
盤古Pro MoE 72B模型權(quán)重、基礎推理代碼,已正式上線開源平臺。
基于昇騰的超大規(guī)模MoE模型推理代碼,已正式上線開源平臺。
盤古7B相關模型權(quán)重與推理代碼將于近期上線開源平臺。
據(jù)悉,基于MoGE架構(gòu)構(gòu)建的盤古Pro MoE大模型(72B總參數(shù)、16B激活參數(shù))在昇騰300I Duo和800I A2可實現(xiàn)更優(yōu)的專家負載分布與計算效率(321 tokens/s和1528 tokens/s)。
而在模型能力方面,盤古Pro MoE在最新一期業(yè)界權(quán)威大模型榜單SuperCLUE上交出了超能打的成績。
和其他動輒千億以上的大模型相比,如DeepSeek-R1具有671B參數(shù),盤古Pro MoE以72B總參數(shù)量達到了59分,千億參數(shù)量以內(nèi)大模型排行并列國內(nèi)第一。
并且,16B激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。