為轉型變壓器網(wǎng)絡(luò )做好準備
?專(zhuān)家說(shuō),變壓器網(wǎng)絡(luò )的注意力機制“將真正打破研究的大門(mén)”。
有一些顆粒狀的鏡頭需要增強,或者你需要發(fā)現一種神奇的藥物?無(wú)論任務(wù)如何,答案都越來(lái)越可能是變壓器網(wǎng)絡(luò )形式的人工智能。
變形金剛,就像那些熟悉網(wǎng)絡(luò )的人喜歡簡(jiǎn)寫(xiě)的那樣,是 Google Brain 于 2017 年發(fā)明的,并被廣泛用于自然語(yǔ)言處理 (NLP)。但現在,它們正在擴展到幾乎所有其他人工智能應用,從計算機視覺(jué)到生物科學(xué)。
Transformer 非常擅長(cháng)在非結構化、未標記的數據中尋找關(guān)系。他們還擅長(cháng)生成新數據。但是為了有效地生成數據,transformer 算法通常必須增長(cháng)到極端的比例。訓練語(yǔ)言模型 GPT3 具有 1750 億個(gè)參數,估計成本在 1100 萬(wàn)美元到 2800 萬(wàn)美元之間。那就是訓練一個(gè)網(wǎng)絡(luò ),一次。并且變壓器尺寸沒(méi)有顯示出任何平穩的跡象。
變壓器網(wǎng)絡(luò )拓寬視野

?
伊恩·巴克(來(lái)源:英偉達)
是什么讓變壓器在如此廣泛的任務(wù)中如此有效?
Nvidia 加速計算總經(jīng)理 兼副總裁 Ian Buck 向 EE Times 解釋 說(shuō),雖然早期的卷積網(wǎng)絡(luò )可能會(huì )查看圖像中的相鄰像素以找到相關(guān)性,但 Transformer 網(wǎng)絡(luò )使用一種稱(chēng)為“注意”的機制來(lái)查看更遠的像素從彼此。
“注意力集中在遠程連接上:它的目的不是查看鄰居在做什么,而是識別遠程連接并優(yōu)先考慮這些連接,”他說(shuō)?!癧變形金剛]如此擅長(cháng)語(yǔ)言的原因是因為語(yǔ)言充滿(mǎn)了上下文,這些上下文不是關(guān)于前一個(gè)單詞,而是[依賴(lài)于]句子中前面說(shuō)過(guò)的東西——或者把那個(gè)句子放在整個(gè)上下文中段落?!?/span>
對于圖像,這意味著(zhù)轉換器可用于 上下文化像素或像素組。換句話(huà)說(shuō),轉換器可用于在圖像的其他位置尋找具有相似大小、形狀或顏色的特征,以嘗試更好地理解整個(gè)圖像。
“卷積很棒,但你經(jīng)常不得不構建非常深的神經(jīng)網(wǎng)絡(luò )來(lái)構建這些遠程關(guān)系,”巴克說(shuō)?!白冃谓饎偪s短了這一點(diǎn),因此他們可以用更少的層更智能地做到這一點(diǎn)?!?/span>
變壓器考慮的連接越遠,它就越大,而且這種趨勢似乎還沒(méi)有結束。Buck 提到了考慮句子中的單詞,然后是段落中的句子,然后是文檔中的段落,然后是整個(gè)互聯(lián)網(wǎng)語(yǔ)料庫中的文檔的語(yǔ)言模型。

?
一旦他們理解了語(yǔ)言,transformer 網(wǎng)絡(luò )就可以學(xué)習任何有足夠文本的主題,通過(guò)閱讀來(lái)有效地吸收知識。不同類(lèi)型的轉換器也可用于計算機視覺(jué)和圖像生成。作者使用 Craiyon.com(以前稱(chēng)為 Dall-E Mini)創(chuàng )建了這些圖像,這是一個(gè)生成的預訓練變壓器網(wǎng)絡(luò ),使用提示“變壓器機器人正在閱讀大量真實(shí)照片”。(來(lái)源:Craiyon.com/EE Times)
到目前為止,變壓器尺寸似乎沒(méi)有理論上的限制。巴克說(shuō),對 5000 億個(gè)參數模型的研究表明,它們還沒(méi)有接近過(guò)擬合的程度。(當模型有效地記憶訓練數據時(shí),就會(huì )發(fā)生過(guò)擬合。)
“這是人工智能研究中的一個(gè)活躍問(wèn)題,”巴克說(shuō)?!斑€沒(méi)有人想出來(lái)。這只是勇氣的問(wèn)題,”他開(kāi)玩笑說(shuō),并指出讓模型變大并不像添加更多層那么簡(jiǎn)單。需要大量的設計工作和超參數調整。
但是,可能存在實(shí)際限制。
“模型越大,你需要訓練的數據就越多,”巴克說(shuō),并指出所需的大量數據也必須是高質(zhì)量的,以確保語(yǔ)言模型不會(huì )在不相關(guān)或不適當的內容上進(jìn)行訓練,以及過(guò)濾出重復。對數據的要求可能是未來(lái)變壓器規模的限制因素。
Nvidia 的 Hopper GPU 架構認識到超大型網(wǎng)絡(luò )的趨勢, 包括一個(gè)轉換器引擎 - 一種硬件和軟件功能的組合,可在保持準確性的同時(shí)實(shí)現更高的吞吐量。Buck 認為,像 Hopper 這樣的平臺通過(guò)允許較小的基礎設施訓練更大的網(wǎng)絡(luò )來(lái)解決訓練變壓器的經(jīng)濟限制。
應用比比皆是
變形金剛可能是從語(yǔ)言開(kāi)始的,但它們正被應用于計算機視覺(jué)和藥物發(fā)現等不同領(lǐng)域。一個(gè)引人注目的用例是醫學(xué)成像,其中轉換器可用于生成用于訓練其他 AI 的合成數據。