從圖像的文本描述推斷空間關(guān)系
從文本描述自動生成圖像在藝術(shù)生成或計算機(jī)輔助設(shè)計等領(lǐng)域?qū)⑹且豁椨杏玫娜蝿?wù)。為了生成逼真的圖像,有必要推斷實體之間的空間關(guān)系。
當(dāng)前數(shù)據(jù)集包括與圖片中的邊界框相關(guān)聯(lián)的主題、對象和關(guān)系三元組。但是,它們需要手動注釋。因此,最近在arXiv.org上進(jìn)行的一項研究的作者提出了一種從圖像的文本描述中提取空間關(guān)系的方法。
創(chuàng)建了一個公開可用的數(shù)據(jù)集,該數(shù)據(jù)集包含成對的圖像和標(biāo)題以及描述中的標(biāo)記以及主題和對象的邊界框。該方法可以成功地從標(biāo)題中推斷出相對于給定主題的對象的大小和位置。它比使用手動生成的三元組的系統(tǒng)更好地定位對象。
從文本描述生成圖像需要一定水平的語言理解和關(guān)于被描述的物理實體的空間關(guān)系的常識知識。在這項工作中,我們專注于推斷實體之間的空間關(guān)系,這是基于文本組成場景過程中的關(guān)鍵步驟。更具體地說,給定一個標(biāo)題,其中包含對主題的提及以及該主題的邊界框的位置和大小,我們的目標(biāo)是預(yù)測標(biāo)題中提到的對象的位置和大小。以前的工作沒有使用標(biāo)題文本信息,而是手動提供的主題和對象之間的關(guān)系。事實上,使用的評估數(shù)據(jù)集包含手動注釋的本體三元組但沒有標(biāo)題,這使得該練習(xí)不切實際:需要手動步驟;并且系統(tǒng)沒有利用字幕中更豐富的信息。在這里,我們提出了一個使用完整字幕和字幕關(guān)系(REC-COCO)的系統(tǒng),這是一個源自MS-COCO的數(shù)據(jù)集,可以直接評估來自字幕的空間關(guān)系推理。我們的實驗表明:(1)可以直接從標(biāo)題中推斷出相對于給定主題的對象的大小和位置;(2)使用全文允許比使用手動注釋關(guān)系更好地放置對象。我們的工作為系統(tǒng)鋪平了道路,在給定標(biāo)題的情況下,決定需要描繪哪些實體以及它們各自的位置和大小,以便生成最終圖像。一個源自MS-COCO的數(shù)據(jù)集,它允許直接評估來自字幕的空間關(guān)系推理。我們的實驗表明:(1)可以直接從標(biāo)題中推斷出相對于給定主題的對象的大小和位置;(2)使用全文允許比使用手動注釋關(guān)系更好地放置對象。我們的工作為系統(tǒng)鋪平了道路,在給定標(biāo)題的情況下,決定需要描繪哪些實體及其各自的位置和大小,然后生成最終圖像。一個源自MS-COCO的數(shù)據(jù)集,它允許直接評估來自字幕的空間關(guān)系推理。我們的實驗表明:(1)可以直接從標(biāo)題中推斷出相對于給定主題的對象的大小和位置;(2)使用全文允許比使用手動注釋關(guān)系更好地放置對象。我們的工作為系統(tǒng)鋪平了道路,在給定標(biāo)題的情況下,決定需要描繪哪些實體以及它們各自的位置和大小,以便生成最終圖像。(2)使用全文允許比使用手動注釋關(guān)系更好地放置對象。我們的工作為系統(tǒng)鋪平了道路,在給定標(biāo)題的情況下,決定需要描繪哪些實體及其各自的位置和大小,然后生成最終圖像。(2)使用全文允許比使用手動注釋關(guān)系更好地放置對象。我們的工作為系統(tǒng)鋪平了道路,在給定標(biāo)題的情況下,決定需要描繪哪些實體及其各自的位置和大小,然后生成最終圖像。
標(biāo)簽: