視覺Transformer識別任務(wù)研究綜述
中國圖象圖形學(xué)報
頁數(shù): 35 2023-10-16
摘要: Transformer模型在自然語言處理領(lǐng)域取得了很好的效果,同時因其能夠更好地連接視覺和語言,也激發(fā)了計算機視覺界的極大興趣。本文總結(jié)了視覺Transformer處理多種識別任務(wù)的百余種代表性方法,并對比分析了不同任務(wù)內(nèi)的模型表現(xiàn),在此基礎(chǔ)上總結(jié)了每類任務(wù)模型的優(yōu)點、不足以及面臨的挑戰(zhàn)。根據(jù)識別粒度的不同,分別著眼于諸如圖像分類、視頻分類的基于全局識別的方法,以及目標檢測、視...