Microsoft在Azure上的AI超級(jí)計(jì)算機(jī)
微軟發(fā)布了一款超級(jí)計(jì)算怪獸,據(jù)該公司稱(chēng),它是世界上最強(qiáng)大的五種怪獸,其目標(biāo)是在科學(xué)和哲學(xué)界稱(chēng)為“新興財(cái)產(chǎn)”,或至少是它的一個(gè)版本。在AI中,這意味著要超越“狹窄的AI”,即AI在完成一項(xiàng)任務(wù)的當(dāng)前狀態(tài),并朝著AI同時(shí)處理多個(gè)任務(wù)或問(wèn)題的方向邁出一步。如果新興財(cái)產(chǎn)開(kāi)始發(fā)揮作用,那么AI可能會(huì)進(jìn)入新的能力領(lǐng)域(請(qǐng)參閱有關(guān)超人AI和“新興財(cái)產(chǎn)”的Eng Lim Goh博士)。
該系統(tǒng)托管在Microsoft的Azure公共云上,并與OpenAI(由Elon Musk等人共同創(chuàng)立的AI研究實(shí)驗(yàn)室,結(jié)合“人類(lèi)人工智能”章程)一起構(gòu)建并用于OpenAI,該系統(tǒng)旨在訓(xùn)練針對(duì)高度復(fù)雜問(wèn)題的較大AI模型,并且微軟在博客中說(shuō): “邁出了邁向下一代超大型AI模型以及訓(xùn)練它們所需的基礎(chǔ)設(shè)施的第一步,這是其他組織和開(kāi)發(fā)人員可以以此為基礎(chǔ)的平臺(tái)。”
微軟首席技術(shù)官凱文·斯科特(Kevin Scott)說(shuō):“這些模型令人興奮的是它們將實(shí)現(xiàn)的功能廣泛。” “這是關(guān)于能夠一次在自然語(yǔ)言處理中完成一百項(xiàng)令人興奮的事情,以及在計(jì)算機(jī)視覺(jué)中完成一百項(xiàng)令人興奮的事情,當(dāng)您開(kāi)始看到這些感知領(lǐng)域的組合時(shí),您將擁有很難的新應(yīng)用程序甚至現(xiàn)在就可以想象。”
在公司的年度構(gòu)建會(huì)議上啟動(dòng)微軟表示,超級(jí)計(jì)算機(jī)是一個(gè)單一系統(tǒng),具有超過(guò)285,000個(gè)CPU內(nèi)核,10,000個(gè)GPU和群集中每個(gè)GPU服務(wù)器每秒400吉比特的網(wǎng)絡(luò)連接能力。微軟表示,雖然該公司沒(méi)有發(fā)布具體的吞吐率數(shù)據(jù),但“與世界500強(qiáng)超級(jí)計(jì)算機(jī)中列出的其他計(jì)算機(jī)相比,它排名前五名。” 如果準(zhǔn)確,則表示機(jī)器的能力大于23.5(雙精度,Linpack)petaFLOPS。微軟表示,該系統(tǒng)已于去年年底完成。沒(méi)有透露有關(guān)系統(tǒng)供應(yīng)商的詳細(xì)信息,但是如果假設(shè)該機(jī)器的10,000個(gè)GPU是Nvidia V100,每個(gè)GPU提供7.8個(gè)雙精度teraFLOPS,那么這足以使Top500進(jìn)入前五名。
“隨著我們?cè)絹?lái)越了解我們需要什么以及組成超級(jí)計(jì)算機(jī)的所有組件的不同限制,我們真的可以說(shuō),'如果我們可以設(shè)計(jì)我們的夢(mèng)想系統(tǒng),它將是什么樣?” ” OpenAI首席執(zhí)行官Sam Altman說(shuō)。“然后,Microsoft得以構(gòu)建它。”
在當(dāng)今的AI中,數(shù)據(jù)科學(xué)家通常會(huì)構(gòu)建單獨(dú)的,相對(duì)有限的模型,這些模型使用標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí)各個(gè)任務(wù),例如語(yǔ)言翻譯,圖像識(shí)別或文檔分類(lèi)。微軟表示,但是研究人員正在建立一種新型的大型模型,該模型可以處理通過(guò)“例如檢查數(shù)十億頁(yè)的公開(kāi)文本”而學(xué)到的任務(wù)。“這種類(lèi)型的模型可以如此深入地吸收語(yǔ)言,語(yǔ)法,知識(shí),概念和上下文的細(xì)微差別,以至于可以勝任多項(xiàng)任務(wù):總結(jié)冗長(zhǎng)的講話(huà),調(diào)節(jié)實(shí)時(shí)游戲聊天中的內(nèi)容,在數(shù)千個(gè)法律文件中尋找相關(guān)段落或甚至可以從GitHub搜索中生成代碼。”
微軟的研究人員根據(jù)公司的AI規(guī)模計(jì)劃,開(kāi)發(fā)了用于自然語(yǔ)言處理(NLP)的更大的Microsoft Turing模型,該模型用于公司的Internet搜索,Office和ERP / CRM產(chǎn)品中。微軟稱(chēng),圖靈自然語(yǔ)言生成(T-NLG)是一個(gè)170億參數(shù)的語(yǔ)言模型(每個(gè)參數(shù)大致相當(dāng)于人腦中的突觸連接),該模型執(zhí)行諸如寫(xiě)作幫助和回答讀者問(wèn)題之類(lèi)的任務(wù)。
最終,該公司打算開(kāi)源其大型AI模型,培訓(xùn)工具和可通過(guò)Azure AI服務(wù)和GitHub獲得的超級(jí)計(jì)算資源。“……人工智能正在成為一個(gè)平臺(tái),”斯科特說(shuō)。“這是關(guān)于獲取非常廣泛的數(shù)據(jù)并訓(xùn)練一個(gè)模型,該模型學(xué)習(xí)如何做一些通用的事情,并使該模型可供數(shù)百萬(wàn)開(kāi)發(fā)人員使用,以弄清楚如何使用有趣的東西和富有創(chuàng)造力的事物。”
微軟還宣布了DeepSpeed的新版本,這是一種用于PyTorch的開(kāi)源深度學(xué)習(xí)庫(kù),該公司表示可以將模型訓(xùn)練的速度提高15倍,并將速度提高10倍。該公司還向ONNX Runtime添加了對(duì)分布式培訓(xùn)的支持,ONNX Runtime是一個(gè)開(kāi)放源代碼庫(kù),旨在使模型可以跨硬件和操作系統(tǒng)移植。迄今為止,ONNX Runtime專(zhuān)注于高性能推理。
這些工具,框架和計(jì)算基礎(chǔ)架構(gòu)的結(jié)合旨在實(shí)現(xiàn)“自我監(jiān)督”學(xué)習(xí),微軟稱(chēng)這是可以通過(guò)使用大量未標(biāo)記,非結(jié)構(gòu)化數(shù)據(jù)并通過(guò)吸收大量公共文檔而進(jìn)行訓(xùn)練的AI模型。互聯(lián)網(wǎng)并預(yù)測(cè)丟失的單詞和句子。取消精心標(biāo)記數(shù)據(jù)的任務(wù)(例如標(biāo)記貓的照片)將極大地改善數(shù)據(jù)科學(xué)家及其工作人員的生活。
微軟說(shuō):“在像瘋狂的Libs這樣的大型游戲中,單詞或句子被刪除了,該模型必須根據(jù)周?chē)膯卧~來(lái)預(yù)測(cè)缺失的部分。” “由于該模型進(jìn)行了數(shù)十億次,因此它非常擅長(zhǎng)感知單詞之間的關(guān)系。這將導(dǎo)致對(duì)語(yǔ)法,概念,上下文關(guān)系和其他語(yǔ)言構(gòu)建塊的豐富理解。它還允許相同的模型在從語(yǔ)言理解到回答問(wèn)題再到創(chuàng)建對(duì)話(huà)機(jī)器人的許多不同語(yǔ)言任務(wù)中轉(zhuǎn)移經(jīng)驗(yàn)教訓(xùn)。”
同樣在Build大會(huì)上,Microsoft預(yù)覽了Project Bonsai,這是Microsoft用于自動(dòng)工業(yè)控制系統(tǒng)的機(jī)器教學(xué)服務(wù)。該公司表示,該項(xiàng)目旨在使沒(méi)有AI背景的主題專(zhuān)家能夠通過(guò)“機(jī)器教學(xué)”開(kāi)發(fā)物理系統(tǒng)和流程,這使機(jī)器“能夠吸收專(zhuān)家的知識(shí),而不僅僅是從數(shù)據(jù)中提取知識(shí)。”
該公司表示:“通過(guò)機(jī)器教學(xué),開(kāi)發(fā)人員和工程師可以指定所需的結(jié)果或行為,要教學(xué)的概念以及必須滿(mǎn)足的安全標(biāo)準(zhǔn)。” “機(jī)器教學(xué)方法使用戶(hù)可以清楚地了解AI代理如何工作以及在不使用時(shí)進(jìn)行調(diào)試。”
標(biāo)簽: Microsoft Azure AI超級(jí)計(jì)算機(jī)