微軟Obj-GAN可將文字轉(zhuǎn)換成復(fù)雜的場(chǎng)景
正如任何熱心的讀者都會(huì)做到的那樣,人類(lèi)只要精心挑選幾個(gè)詞,就能想象出復(fù)雜的場(chǎng)景。然而,人工智能系統(tǒng)在將文本描述轉(zhuǎn)換成圖片的任務(wù)上遇到了困難?,F(xiàn)在,來(lái)自微軟和JD人工智能實(shí)驗(yàn)室的研究人員提出了一種基于對(duì)象驅(qū)動(dòng)的專(zhuān)注生成對(duì)抗網(wǎng)絡(luò)(Obj-GAN)的新模型,該模型能夠基于一個(gè)簡(jiǎn)短的短語(yǔ)或描述性文本句子生成相對(duì)復(fù)雜的場(chǎng)景。Obj-GAN的生成器識(shí)別描述性單詞和對(duì)象級(jí)信息,逐步細(xì)化合成圖像,在圖像細(xì)節(jié)和成分元素之間的關(guān)系方面改進(jìn)了之前的前沿模型。下面是運(yùn)用不一樣人工智能技術(shù)生成的真實(shí)圖片和文本描述圖像的比較。研究結(jié)果表明,隨著描述的復(fù)雜化,Obj-GAN與其他GANs相比,越來(lái)越能夠?qū)⑽谋巨D(zhuǎn)換成逼真的圖像。 通過(guò)測(cè)驗(yàn)Obj-GAN的泛化能力,研究人員發(fā)現(xiàn),該模型會(huì)根據(jù)在現(xiàn)實(shí)世界中沒(méi)有多大意義的文本輸入生成物理或關(guān)系不合理的圖像。例如:從文本生成圖像的一個(gè)困難是,如何讓人工智能系統(tǒng)理解場(chǎng)景中多個(gè)對(duì)象之間的關(guān)系。以前的方式運(yùn)用圖像描述對(duì),它們僅為單個(gè)對(duì)象提供粗粒度的信號(hào),因此即使是這種類(lèi)型的最佳模型也難以生成包含以合理配置排列的多個(gè)對(duì)象的圖像。為了搞定這個(gè)問(wèn)題,研究人員提出了一種新的目標(biāo)驅(qū)動(dòng)注意力機(jī)制,將圖像生成分為兩個(gè)步驟:首先,研究人員運(yùn)用seq2seq關(guān)心模型,將文本轉(zhuǎn)換為語(yǔ)義布局,比如邊框和形狀。然后,一個(gè)多級(jí)注意力圖像生成器在上述布局的基礎(chǔ)上創(chuàng)建一個(gè)低辨別率的圖像,通過(guò)關(guān)心最相關(guān)的單詞和預(yù)先生成的類(lèi)標(biāo)簽,在不一樣區(qū)域細(xì)化細(xì)節(jié)。研究人員還規(guī)劃了分段和對(duì)象分類(lèi)器,以確定合成的圖像是否與文本描述和預(yù)先生成的布局匹配。在他們的實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)Obj-GAN在各種COCO基準(zhǔn)測(cè)驗(yàn)任務(wù)上優(yōu)于之前的SOTA方式,使Inception的分?jǐn)?shù)提升了27%。該論文通過(guò)對(duì)抗性訓(xùn)練,實(shí)現(xiàn)了基于對(duì)象驅(qū)動(dòng)的文本到圖像的合成。Obj-GAN模型和代碼已經(jīng)在GitHub上開(kāi)源。