職位描述

職位描述
為大規(guī)模分布式訓練/推理、llm等多種重計算任務(wù)設(shè)計和實現(xiàn)分布式計算方案,并對各類任務(wù)進行定制化優(yōu)化。具體工作包括且不限于:
1,搭建分布式高性能計算框架,研究和實驗新的分布式計算技術(shù),基于主流分布式框架進行研發(fā)和優(yōu)化
2,分析和優(yōu)化訓練計算效率,通過gpu算子優(yōu)化、異步并發(fā)、io優(yōu)化等方式減少計算耗時
3,設(shè)計和優(yōu)化網(wǎng)絡(luò)架構(gòu),對各種任務(wù)partition和并行方式進行性能調(diào)優(yōu)
4,領(lǐng)導(dǎo)和指導(dǎo)團隊中的研究人員和工程師,共同解決大規(guī)模分布式計算中的挑戰(zhàn)
職位要求
1,碩士及以上學歷,計算機/軟件工程等相關(guān)專業(yè),3年以上工作經(jīng)驗(或相關(guān)專業(yè)博士);
2,對tensorflow/pytorch等主流框架的架構(gòu)設(shè)計及優(yōu)化技術(shù)有比較深入的理解,比如算子融合、量化、xla、計算圖優(yōu)化等
3,有豐富的c++開發(fā)經(jīng)驗或精通python,有很好的系統(tǒng)基礎(chǔ)和扎實的編碼功底,具有較強的工程實現(xiàn)能力
4,對計算機體系結(jié)構(gòu)有較為深入的理解或豐富的經(jīng)驗,熟悉大規(guī)模并行計算/異構(gòu)計算/高性能計算;
5,具備較強的溝通能力,團隊驅(qū)動能力和獨立工作能力,能帶領(lǐng)和協(xié)調(diào)團隊推動方案完成
工作地點
地址:杭州余杭區(qū)杭州文一西路969號


職位發(fā)布者
HR
阿里巴巴(中國)有限公司


-
IT服務(wù)·系統(tǒng)集成
-
1000人以上
-
中外合資(合資·合作)
-
杭州濱江區(qū)阿里巴巴濱江園區(qū)699
相似職位
-
pe-工藝改善工程師(pie) 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司
-
ehs現(xiàn)場工程師(宜賓) 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司
-
pmc-生產(chǎn)計劃工程師 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司
-
pmc-國內(nèi)/進出口物流工程師 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司
-
pmc-包裝技術(shù)員(四川時代) 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司
-
qa-過程質(zhì)量工程師-cell(四川時代) 面議應(yīng)屆畢業(yè)生 不限寧德時代新能源科技股份有限公司