融合答案掩碼的視覺問答模型
中國圖象圖形學(xué)報(bào)
頁數(shù): 13 2023-11-16
摘要: 目的 現(xiàn)有的視覺問答模型由于受到語言先驗(yàn)的影響,預(yù)測(cè)準(zhǔn)確率不高。雖然模型能夠根據(jù)數(shù)據(jù)集中問題和答案的統(tǒng)計(jì)規(guī)律學(xué)習(xí)到它們之間簡單的對(duì)應(yīng)關(guān)系,但無法學(xué)習(xí)到問題和答案類型之間深層次的對(duì)應(yīng)關(guān)系,容易出現(xiàn)答非所問的現(xiàn)象。為此,提出了一種使用答案掩碼對(duì)預(yù)測(cè)結(jié)果中的無關(guān)答案進(jìn)行遮蓋的方法,迫使模型關(guān)注問題和答案類型之間的對(duì)應(yīng)關(guān)系,提高模型的預(yù)測(cè)準(zhǔn)確率。方法 首先對(duì)數(shù)據(jù)集中的答案進(jìn)行聚類并為每...