當(dāng)前位置:首頁 > 實用文檔 > 計算機軟件及計算機應(yīng)用 > 正文

基于S-YOLO V5和Vision Transformer的視頻內(nèi)容描述算法

印刷與數(shù)字媒體技術(shù)研究 頁數(shù): 11 2023-08-10
摘要: 視頻內(nèi)容描述的自動生成是結(jié)合計算機視覺和自然語言處理等相關(guān)技術(shù)提出的一種新型交叉學(xué)習(xí)任務(wù)。針對當(dāng)前視頻內(nèi)容生成描述模型可讀性不佳的問題,本研究提出一種基于S-YOLO V5和Vison Transformer(ViT)的視頻內(nèi)容描述算法。首先,基于神經(jīng)網(wǎng)絡(luò)模型KATNA提取關(guān)鍵幀,以最少幀數(shù)進行模型訓(xùn)練;其次,利用S-YOLO V5模型提取視頻幀中的語義信息,并結(jié)合預(yù)訓(xùn)練Res...

開通會員,享受整站包年服務(wù)立即開通 >