計畫名稱
跨模態資料學習於圖像語意理解、描述、生成與操控
計畫目標
透過跨模態(文字 vs. 影像)而非單一型態資料的學習,發展能理解圖像語意內容資訊之可解釋性AI模型,分年解決下列應用:新穎物件影像描述、文字對影像生成與操控、語意場景圖擴充、語意引導之影像補全。
計畫概述
- 第一年:新穎物件影像描述
挑戰性:現有captioning模型需大量標註訓練資料;就算上述資料完備,仍未具備新穎物件(如新物種、新產品)影像有合理描述之能力。 - 第二年:文字對影像生成與操控
挑戰性:現有影像生成方法多需修改前後的影像進行訓練(監督式學習不易進行);少數非監督式方法雖被提出,僅能修改影像特定特徵,無法修改構圖或增減物件。 - 第三年:語意場景圖擴充
挑戰性:現有物件偵測技術相當成熟,但影像物, 件標籤未能反應影像語意資訊(如物件之間空間、 動作,或主受詞關係),且現有技術大多未能推論 未知但符合場景語意之物件。 - 第四年:語意引導之影像補全
挑戰性:影像修補技術多專注於圖像缺失、雜訊或不相干背景之修復或移除,現有影像補全(image outpainting or completion)技術亦多以複製重複性背景(天空、山、海等),未能依影像語意進行補全。