領(lǐng)跑世界的指揮員記“天河一號(hào)”“
領(lǐng)跑世界的指揮員
記“天河一號(hào)”“天河二號(hào)”副總設(shè)計(jì)師肖立權(quán)
仲夏時(shí)節(jié),湘江之畔的國防科技大學(xué)已進(jìn)入暑期。校園里人影稀疏,不復(fù)往日熱鬧。
矗立在東北方向的天河大樓里,機(jī)房內(nèi)長達(dá)數(shù)十米的機(jī)箱整齊排列著,指示燈明暗交錯(cuò),高速運(yùn)轉(zhuǎn)的機(jī)箱發(fā)出低沉的嗡嗡聲。這就是我國六度稱雄全球超級(jí)計(jì)算機(jī)500強(qiáng)榜單,讓中國速度震驚世界的“天河二號(hào)”。
此時(shí),“天河二號(hào)”副總設(shè)計(jì)師、國防科技大學(xué)計(jì)算機(jī)學(xué)院計(jì)算機(jī)研究所所長肖立權(quán),正帶領(lǐng)著團(tuán)隊(duì)攻關(guān)新一代高性能計(jì)算機(jī)。正是他們,吹響了向新的中國速度發(fā)起沖鋒的集結(jié)號(hào)。
無懼挑戰(zhàn)解決技術(shù)難題
1997年,肖立權(quán)博士畢業(yè)留校后,成為國防科技大學(xué)計(jì)算機(jī)學(xué)院計(jì)算機(jī)研究所的一名科研人員。從那時(shí)起,他就與巨型機(jī)一起成長,參與了“銀河”“天河”高性能計(jì)算機(jī)多代機(jī)型的研制,從一名普通的科研人員,一步步成長為今天國防科技大學(xué)超級(jí)計(jì)算機(jī)團(tuán)隊(duì)的核心骨干。
“走別人沒走過的路太難,但我喜歡挑戰(zhàn)。”這是肖立權(quán)在接受采訪時(shí)常掛在嘴邊的一句話。
上個(gè)世紀(jì)末,大規(guī)模計(jì)算機(jī)系統(tǒng)中通常采用的電互聯(lián)技術(shù)傳輸速率低,且易受干擾,極大影響了系統(tǒng)的穩(wěn)定性,成為我國研制千萬億次級(jí)超級(jí)計(jì)算機(jī)路上的一塊絆腳石。
如何搬開這塊絆腳石?用光互聯(lián)替代電互聯(lián)是最優(yōu)解,于是,研究所將這一任務(wù)交給了肖立權(quán)。
這是一條別人沒有走過的路,注定充滿了荊棘和坎坷。
2003年受領(lǐng)任務(wù)后,肖立權(quán)立即將科研準(zhǔn)星瞄向了這一技術(shù)難題。然而,按照自己思路做出來的系統(tǒng)根本跑不起來。
哪里出了問題?
那個(gè)夏天,肖立權(quán)滿腦子都在問為什么。就連午休閉上眼睛,他腦海里都是屏幕上滾動(dòng)的實(shí)驗(yàn)數(shù)據(jù)。
“沒法睡,去實(shí)驗(yàn)室。”肖立權(quán)翻身而起,穿好衣服就往實(shí)驗(yàn)室跑。
架起示波器、邏輯分析儀,他全神貫注地觀察著,生怕一眨眼就錯(cuò)過了關(guān)鍵數(shù)據(jù)。
解決的思路一次次提出,卻又一次次被推翻。
某天,正在做實(shí)驗(yàn)的肖立權(quán)突然冒出一個(gè)想法:是不是數(shù)據(jù)傳輸有問題?靈光乍現(xiàn)后,他找到了解決問題的鑰匙,隨即逆向思維反推,最終找到癥結(jié)所在。
這一刻,我國光互聯(lián)技術(shù)在大規(guī)模計(jì)算機(jī)系統(tǒng)中得到有效驗(yàn)證,為后續(xù)這一技術(shù)在超級(jí)計(jì)算機(jī)系統(tǒng)中的應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
此后,肖立權(quán)馬不停蹄,瞄準(zhǔn)這一技術(shù)領(lǐng)域,拿下了一個(gè)又一個(gè)攔路虎,解決了光互聯(lián)替代電互聯(lián)的系列技術(shù)難題,成功研制出我國首臺(tái)采用光互聯(lián)技術(shù)的并行計(jì)算機(jī)互聯(lián)通信系統(tǒng)。傳輸速率從原有的400Mbps一路飆升為10Gbps,實(shí)現(xiàn)數(shù)量級(jí)飛躍。
艱難闖關(guān)問鼎世界桂冠
2010年11月,“天河一號(hào)”憑借優(yōu)異性能登上世界超級(jí)計(jì)算機(jī)500強(qiáng)榜首,中國超級(jí)計(jì)算機(jī)首次問鼎世界桂冠,五星紅旗飄揚(yáng)世界之巔。
2013年6月,“天河二號(hào)”以峰值運(yùn)算速度每秒5.49億億次,持續(xù)計(jì)算速度每秒3.39億億次,輕松摘得世界超級(jí)計(jì)算機(jī)500強(qiáng)桂冠,我國超級(jí)計(jì)算機(jī)研制達(dá)到世界領(lǐng)先水平。習(xí)近平主席專門對(duì)“天河二號(hào)”研制成功作出重要批示。
2013年11月,“天河二號(hào)”蟬聯(lián)世界超級(jí)計(jì)算機(jī)500強(qiáng)榜首;
2015年11月,“天河二號(hào)”六次問鼎世界超級(jí)計(jì)算機(jī)500強(qiáng),中國速度繼續(xù)領(lǐng)跑世界。
作為“天河一號(hào)”“天河二號(hào)”的副總設(shè)計(jì)師,這些耀眼成績的背后,是肖立權(quán)瞄準(zhǔn)世界高性能計(jì)算機(jī)技術(shù)前沿,不懈探索創(chuàng)新的豐碩成果。
高速互聯(lián)通信是決定大規(guī)模并行計(jì)算機(jī)系統(tǒng)實(shí)用效率的關(guān)鍵,美國對(duì)中國嚴(yán)格封鎖高速互聯(lián)技術(shù)轉(zhuǎn)讓。當(dāng)時(shí),“天河一號(hào)”在國內(nèi)首次創(chuàng)新性地采用了CPU+GPU異構(gòu)融合體系架構(gòu),其內(nèi)部數(shù)萬個(gè)CPU和GPU需要通過互聯(lián)通信系統(tǒng)實(shí)現(xiàn)信息交換,難度可想而知,組織并全面負(fù)責(zé)互聯(lián)通信系統(tǒng)自主設(shè)計(jì)研制任務(wù)的肖立權(quán)倍感壓力。
寒來暑往,他不僅協(xié)助制定系統(tǒng)的總體技術(shù)方案、技術(shù)路線和設(shè)計(jì)指導(dǎo)原則,而且經(jīng)常泡在試驗(yàn)一線,從原理驗(yàn)證到工程實(shí)踐,一個(gè)環(huán)節(jié)都不放過。團(tuán)隊(duì)在他的帶領(lǐng)下,開展關(guān)鍵技術(shù)、核心技術(shù)攻關(guān),迅速打響了一場(chǎng)沒有硝煙的戰(zhàn)斗,成功將“天河一號(hào)”送上世界超級(jí)計(jì)算機(jī)第一的寶座。
在大家眼里,肖立權(quán)是名副其實(shí)的拼命三郎。可用他自己的話說,和地下銀河團(tuán)隊(duì)那些為了銀河事業(yè)而犧牲奉獻(xiàn)的先輩先烈相比,這算不了什么。
自主創(chuàng)新攻克世界難題
短暫的喜悅過后,肖立權(quán)又開始了緊張的工作,他早已將目標(biāo)瞄準(zhǔn)了運(yùn)算速度更快的億億次超級(jí)計(jì)算機(jī)系統(tǒng)——“天河二號(hào)”。
在原有基礎(chǔ)上,他帶領(lǐng)團(tuán)隊(duì)進(jìn)行封閉攻關(guān),“天河二號(hào)”高速互聯(lián)通信系統(tǒng)性能得到提升,是當(dāng)時(shí)國際商用互聯(lián)系統(tǒng)的兩倍。它可以把上萬顆微處理器聯(lián)系起來,共同解決同一個(gè)計(jì)算問題,解決了高效互聯(lián)中微處理器越多效能越低的世界難題。
研制“天河二號(hào)”期間,由于時(shí)間緊任務(wù)重,在接近1000天的研制周期中,肖立權(quán)只在兩個(gè)春節(jié)各休息了3天。
對(duì)于肖立權(quán)來說,這就是他的戰(zhàn)場(chǎng),他既要當(dāng)項(xiàng)目指揮者,又要做一線戰(zhàn)斗員。
攻關(guān)關(guān)鍵期,肖立權(quán)帶領(lǐng)所在團(tuán)隊(duì)采取三班倒方式夜以繼日進(jìn)行奮戰(zhàn),自己每天連續(xù)工作十幾個(gè)小時(shí)以上,身體屢亮黃燈卻無暇顧及。
在這條自主創(chuàng)新的道路上,肖立權(quán)帶領(lǐng)項(xiàng)目組在校外進(jìn)行了長達(dá)一年的封閉設(shè)計(jì)工作,自主研制出互聯(lián)通信系統(tǒng)最核心的兩塊芯片:路由器和網(wǎng)絡(luò)接口。
一臺(tái)超級(jí)計(jì)算機(jī)系統(tǒng)好比一個(gè)大城市,互聯(lián)通信系統(tǒng)就是城市的公路網(wǎng),路由器就是立交橋,網(wǎng)絡(luò)接口就是主干道出入口。一個(gè)城市公路網(wǎng)市政設(shè)施建設(shè)得再好,立交橋和主干道出入口不設(shè)計(jì)好,城市交通依然擁擠不堪。
依靠自主創(chuàng)新,掌握了屬于自己的核心關(guān)鍵技術(shù),這是“天河二號(hào)”在發(fā)展迅猛、競爭激烈的世界超級(jí)計(jì)算機(jī)領(lǐng)域長時(shí)間保持領(lǐng)先地位的主要原因。
正如國際TOP500主要撰稿人杰克·唐加拉所說:“中國自主研發(fā)了內(nèi)部互聯(lián)技術(shù),這是買不來的,這是他們基于芯片、路由器及自主生產(chǎn)的交換器開發(fā)出來的。”
“我們參加世界排名并不僅僅是為了第一。世界超算500強(qiáng)榜單其實(shí)是一個(gè)交流平臺(tái),只有在國際上有了聲譽(yù),別人才愿意和我們交流。”肖立權(quán)深知,只有自立自強(qiáng),掌握自主核心關(guān)鍵技術(shù),才能在國際上掌握發(fā)言權(quán),讓世界聽到來自中國的聲音,讓中國更好的了解國際前沿發(fā)展趨勢(shì)。
作為計(jì)算機(jī)研究所領(lǐng)導(dǎo),肖立權(quán)始終把人才培養(yǎng)作為科學(xué)研究的重中之重。在所內(nèi)實(shí)施青年骨干培養(yǎng)計(jì)劃,制定優(yōu)秀人才個(gè)性化培養(yǎng)方案,讓10多名年輕博士擔(dān)任分系統(tǒng)設(shè)計(jì)師,組織一線骨干留學(xué)考察。
目前,這個(gè)所入選國家和軍隊(duì)人才培養(yǎng)工程對(duì)象等高獎(jiǎng)項(xiàng)的有38人次,平均年齡不到40歲。
擔(dān)任博士生導(dǎo)師和碩士生導(dǎo)師以來,肖立權(quán)累計(jì)指導(dǎo)博士生8名,碩士生15名。根據(jù)學(xué)生不同興趣和愛好,在高性能計(jì)算機(jī)體系結(jié)構(gòu)、高速互聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)、光互聯(lián)與交換、深亞微米ASIC設(shè)計(jì)等方面,他以自身積累的深厚理論基礎(chǔ)和豐富的實(shí)踐經(jīng)驗(yàn)為基礎(chǔ),引導(dǎo)學(xué)生廣泛參與工程實(shí)踐活動(dòng),在實(shí)踐中培養(yǎng)學(xué)生的創(chuàng)新和科研攻關(guān)能力。
眼下的這個(gè)暑假,對(duì)肖立權(quán)來說并不存在,他正忙著帶領(lǐng)團(tuán)隊(duì)全力投入到新一代高性能計(jì)算機(jī)的研制攻關(guān)中。
肖立權(quán)的目標(biāo),是摘取超級(jí)計(jì)算機(jī)的下一頂皇冠。
□ 本報(bào)記者 廉穎婷
□ 本報(bào)通訊員 劉于藍(lán)