基于跨模態(tài)注意力的目標(biāo)語音提取
計(jì)算機(jī)工程
頁數(shù): 9 2024-01-19
摘要: 目標(biāo)語音提取作為語音分離領(lǐng)域的一部分,旨在從混合語音數(shù)據(jù)中提取出目標(biāo)語音。考慮到視聽信息具有天然一致性,在進(jìn)行模型訓(xùn)練時(shí),可以融合視覺信息指導(dǎo)模型對目標(biāo)語音的提取。對此,傳統(tǒng)方法是將視覺特征和音頻特征進(jìn)行簡單拼接,然后進(jìn)行卷積操作實(shí)現(xiàn)通道融合,這種方法無法有效挖掘到跨模態(tài)信息間的相關(guān)性。針對這個(gè)問題,設(shè)計(jì)一個(gè)基于兩階段的跨模態(tài)注意力特征融合模塊。在第一階段進(jìn)行點(diǎn)積注意力計(jì)算來挖...