技術(shù)
導(dǎo)讀:GPT-3 使用大量文本數(shù)據(jù)進(jìn)行了訓(xùn)練,那么,假如同時(shí)使用文本和圖像數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)發(fā)生什么呢?
在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。
雖然它可以僅憑很少的文本來(lái)輸出詩(shī)歌、短篇小說(shuō)和歌曲,并且成功地讓人們相信這是人類的創(chuàng)作。但是,它在同人類對(duì)話時(shí)還是顯得非常“幼稚”??杀M管如此,技術(shù)人員依然認(rèn)為,創(chuàng)造了 GPT-3 的技術(shù)可能是通往更高級(jí) AI 的必經(jīng)之路。
GPT-3 使用大量文本數(shù)據(jù)進(jìn)行了訓(xùn)練,那么,假如同時(shí)使用文本和圖像數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)發(fā)生什么呢?
艾倫人工智能研究所(AI2)在這個(gè)問(wèn)題上取得了進(jìn)展,技術(shù)人員開(kāi)發(fā)了一種新的視覺(jué)語(yǔ)言模型,可以根據(jù)給定的文本生成對(duì)應(yīng)圖像。
不同于 GAN 所生成的超現(xiàn)實(shí)主義作品,AI2 生成的這些圖像看起來(lái)非常怪異,但它的確可能是一個(gè)實(shí)現(xiàn)通用人工智能的新路徑。
AI“做題家”
GPT-3 在分類上屬于 “Transformer” 模型,隨著 Google BERT 的成功,該模型開(kāi)始流行。而在 BERT 之前,語(yǔ)言模型可用性不佳。
它們雖然具備一定的預(yù)測(cè)能力,但并不足以生成符合語(yǔ)法和常識(shí)的長(zhǎng)句子。BERT 通過(guò)引入一種稱為 “masking(遮罩)” 的新技術(shù),使模型這方面的能力得到了大幅加強(qiáng)。
模型會(huì)被要求完成類似下面的填空題:
這位女士去___鍛煉。
他們買了一個(gè)___面包做三明治。
這個(gè)想法初衷是,如果強(qiáng)迫模型進(jìn)行數(shù)百萬(wàn)次的這類練習(xí),它是否可能學(xué)會(huì)如何將單詞組合成句子以及如何將句子組合成段落。測(cè)試結(jié)果表明,模型確實(shí)獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關(guān)的搜索結(jié)果)。
在證明遮罩行之有效之后,技術(shù)人員試圖通過(guò)將文本中的單詞隱藏,將其應(yīng)用于視覺(jué)語(yǔ)言模型,例如:
一只站立在樹(shù)木旁的___。(來(lái)源:MIT TR)
通過(guò)數(shù)百萬(wàn)次的訓(xùn)練,它不僅可以發(fā)現(xiàn)單詞之間的組合模式,還可以發(fā)現(xiàn)單詞與圖像中元素之間的關(guān)聯(lián)。
這樣的結(jié)果就是模型擁有了將文字描述與視覺(jué)圖像相關(guān)聯(lián)的能力,就像人類的嬰兒可以在他們所學(xué)的單詞同所見(jiàn)事物之間建立聯(lián)系一樣。
舉個(gè)例子,當(dāng)模型讀取到下面的圖片,便可以給出一個(gè)較為貼切標(biāo)題,如 “打曲棍球的女人”?;蛘咚鼈兛梢曰卮鹬T如“球是什么顏色?” 之類的問(wèn)題,因?yàn)槟P涂梢詫卧~ “球” 與圖像中的圓形物體關(guān)聯(lián)。
圖 | 女子曲棍球比賽 (來(lái)源:MIT TR)
一圖勝千言
技術(shù)人員想知道這些模型是否真的像嬰兒一樣 “學(xué)會(huì)” 了認(rèn)識(shí)這個(gè)世界。
孩子不僅可以在看到圖像時(shí)聯(lián)想到單詞,還可以在看到單詞時(shí)在頭腦中浮現(xiàn)出對(duì)應(yīng)的圖像,哪怕這個(gè)圖像是真實(shí)和想象的混合體。
技術(shù)人員嘗試讓模型做同樣的事情:根據(jù)文本生成圖像。然后模型吐出了無(wú)意義的像素圖案。
圖 | 是鳥(niǎo)?是飛機(jī)?不,這只是 AI 產(chǎn)生的“神作” (來(lái)源:MIT TR)
得到這樣的結(jié)果是有原因的,將文本轉(zhuǎn)換為圖像的任務(wù)相比其他要困難得多。AI2 的計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人 Ani Kembhavi 說(shuō),文本并未指定圖像中包含的所有內(nèi)容。因此,模型需要 “聯(lián)想” 許多現(xiàn)實(shí)世界的常識(shí)來(lái)填充細(xì)節(jié)。
例如,假設(shè) AI 被要求繪制“在道路上行走的長(zhǎng)頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。
因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過(guò)調(diào)整遮罩的方式,來(lái)教授 AI 所有這些隱式視覺(jué)知識(shí)。他們訓(xùn)練模型不是為了從對(duì)應(yīng)圖片中預(yù)測(cè)被遮蓋的單詞,而是為了讓它能從文本中 “腦補(bǔ)” 圖片中的缺失部分。
雖然模型最終生成的圖像并不完全真實(shí),但這不是重點(diǎn)。重要的是這預(yù)示著模型已經(jīng)包含了正確的高級(jí)視覺(jué)概念,即 AI 一定程度上具備了兒童的根據(jù)文本畫(huà)圖的能力。
圖 | AI2 模型根據(jù)文本生成的圖像示例 (來(lái)源:MIT TR)
視覺(jué)語(yǔ)言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實(shí)際上具有一定程度的抽象能力,而這是理解世界的基本技能。
未來(lái),這項(xiàng)技術(shù)很可能對(duì)機(jī)器人領(lǐng)域產(chǎn)生極大影響。機(jī)器人可以使用語(yǔ)言進(jìn)行交流,當(dāng)它們對(duì)視覺(jué)信息的理解越好,就越能夠執(zhí)行復(fù)雜的任務(wù)。
Hajishirzi 說(shuō),從短期來(lái)看,這種可視化還可以幫助技術(shù)人員更好地理解 AI 模型的學(xué)習(xí)過(guò)程。之后,AI2 團(tuán)隊(duì)計(jì)劃展開(kāi)更多實(shí)驗(yàn),以提高圖像生成的質(zhì)量,并拓寬模型的視覺(jué)和語(yǔ)言。