基于Vision Transformer和語義學(xué)習(xí)的視頻描述模型
印刷與數(shù)字媒體技術(shù)研究
頁數(shù): 12 2023-10-10
摘要: 針對當(dāng)前視頻內(nèi)容描述任務(wù)中所生成的描述語句晦澀難懂問題,本研究提出一種基于ViT(Vision Transformer)和語義學(xué)習(xí)的視頻描述模型。首先,采用深度可分離卷積優(yōu)化ResNet152、C3D等特征提取網(wǎng)絡(luò),通過減少網(wǎng)絡(luò)參數(shù),降低模型時(shí)間開銷;其次,利用多模態(tài)融合網(wǎng)絡(luò)融合多種模態(tài)特征,使不同模態(tài)進(jìn)行語義對齊;然后,基于Vision Transformer網(wǎng)絡(luò)建立一種長距...