說話人日記化是按說話人標(biāo)簽對(duì)錄音進(jìn)行分段的過程,旨在回答“誰在何時(shí)發(fā)言?”。與語音識(shí)別相比,它有著明顯的區(qū)別。
在你執(zhí)行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識(shí)別系統(tǒng)的一個(gè)基本特征,它可以用說話人標(biāo)簽豐富轉(zhuǎn)錄內(nèi)容。也就是說,如果沒有說話人日記化過程,會(huì)話錄音永遠(yuǎn)不能被視為完全轉(zhuǎn)錄,因?yàn)闆]有說話者標(biāo)簽的轉(zhuǎn)錄無法通知您是誰在和誰說話。

圖 1.說話人區(qū)分是將音頻記錄劃分為說話人同質(zhì)區(qū)域的任務(wù)
說話人日記必須產(chǎn)生準(zhǔn)確的時(shí)間戳,因?yàn)樵跁?huì)話設(shè)置中,說話人的話輪數(shù)可能非常短。我們經(jīng)常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對(duì)機(jī)器轉(zhuǎn)錄和識(shí)別說話人來說很有挑戰(zhàn)性。
雖然根據(jù)說話人身份對(duì)音頻記錄進(jìn)行分段,但說話人日記化需要對(duì)相對(duì)較短的分段進(jìn)行細(xì)粒度決策,從十分之幾秒到幾秒不等。對(duì)如此短的音頻片段做出準(zhǔn)確、細(xì)粒度的決策是一項(xiàng)挑戰(zhàn),因?yàn)樗惶赡懿蹲降娇煽康恼f話人特征。
在本文中,我們討論了如何通過引入一種稱為多尺度方法和多尺度二值化解碼器( MSDD )的新技術(shù)來處理多尺度輸入來解決這個(gè)問題。
多尺度分割機(jī)制
就揚(yáng)聲器特征的質(zhì)量而言,提取長音頻段是可取的。然而,音頻段的長度也限制了粒度,這導(dǎo)致?lián)P聲器標(biāo)簽決策的單位長度較粗。如圖 2 所示的曲線所示,說話人區(qū)分系統(tǒng)面臨著時(shí)間分辨率和說話人表示保真度之間的權(quán)衡問題。
在說話人區(qū)分流水線中的說話人特征提取過程中,為了獲得高質(zhì)量的說話者表示向量,不可避免地要花費(fèi)較長的語音段來犧牲時(shí)間分辨率。在簡單明了的語言中,如果你試圖準(zhǔn)確掌握語音特征,那么你必須考慮更長的時(shí)間跨度。
同時(shí),如果你考慮更長的時(shí)間跨度,你必須在相當(dāng)長的時(shí)間跨度內(nèi)做出決定。這會(huì)導(dǎo)致粗決策(時(shí)間分辨率低)。想想這樣一個(gè)事實(shí),如果只錄下半秒鐘的講話,即使是人類聽眾也無法準(zhǔn)確地說出誰在講話。
在大多數(shù)分音系統(tǒng)中,音頻段長度在 1.5 到 3.0 秒之間,因?yàn)檫@樣的數(shù)字在揚(yáng)聲器特性的質(zhì)量和時(shí)間分辨率之間取得了很好的折衷。這種分割方法稱為 single-scale approach 。
即使使用重疊技術(shù),單尺度分割也將時(shí)間分辨率限制在 0.75 ~ 1.5 秒,這在時(shí)間精度方面留下了改進(jìn)的空間。
粗略的時(shí)間分辨率不僅會(huì)降低二值化的性能,而且會(huì)降低說話人計(jì)數(shù)的準(zhǔn)確性,因?yàn)槎陶Z音片段無法正確捕獲。 更重要的是,說話人時(shí)間戳中的這種粗時(shí)間分辨率使得解碼后的 ASR 文本與說話人區(qū)分結(jié)果之間的匹配更容易出錯(cuò)。
為了解決這個(gè)問題,我們提出了一種多尺度方法,這是一種通過從多段長度中提取說話人特征,然后將多尺度的結(jié)果結(jié)合起來來處理這種權(quán)衡的方法。多尺度技術(shù)在最流行的說話人方言化基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的精度。它已經(jīng)是開源會(huì)話 AI 工具包 NVIDIA NeMo 的一部分。
圖 2 顯示了多尺度揚(yáng)聲器分辨率的關(guān)鍵技術(shù)解決方案。

圖 2.說話人表示的時(shí)間分辨率和保真度的相應(yīng)折衷曲線
多尺度方法通過使用多尺度分割和從每個(gè)尺度提取說話人嵌入來實(shí)現(xiàn)。在圖 2 的左側(cè),在多尺度分割方法中執(zhí)行了四種不同的尺度。
在段關(guān)聯(lián)性計(jì)算過程中,將合并從最長刻度到最短刻度的所有信息,但只對(duì)最短的段范圍作出決策。當(dāng)組合每個(gè)音階的特征時(shí),每個(gè)音階權(quán)重在很大程度上影響說話人的區(qū)分性能。
基于神經(jīng)模型的多尺度分解流水線
由于刻度權(quán)重在很大程度上決定了說話人區(qū)分系統(tǒng)的準(zhǔn)確性,因此應(yīng)設(shè)置刻度權(quán)重以使說話人的區(qū)分性能達(dá)到最大。
我們提出了一種稱為 multiscale diarization decoder ( MSDD )的新型多尺度二值化系統(tǒng),該系統(tǒng)在每個(gè)時(shí)間步長動(dòng)態(tài)確定每個(gè)尺度的重要性。
說話人日記系統(tǒng)依賴于被稱為說話人嵌入的音頻特征向量捕獲的說話人特征。通過神經(jīng)模型提取說話人嵌入向量,從給定的音頻信號(hào)中生成稠密浮點(diǎn)數(shù)向量。
MSDD 從多個(gè)尺度中提取多個(gè)說話人嵌入向量,然后估計(jì)所需的尺度權(quán)重。基于估計(jì)的音階權(quán)重,生成揚(yáng)聲器標(biāo)簽。如果輸入信號(hào)被認(rèn)為在某些尺度上具有更準(zhǔn)確的信息,則所提出的系統(tǒng)在大尺度上的權(quán)重更大。
圖 3 顯示了提議的多尺度說話人分離系統(tǒng)的數(shù)據(jù)流。從音頻輸入中提取多尺度分段,并使用揚(yáng)聲器嵌入提取器( TitaNet )生成用于多尺度音頻輸入的相應(yīng)揚(yáng)聲器嵌入向量。

圖 3.擬建 多尺度說話人識(shí)別系統(tǒng) 的數(shù)據(jù)流
提取的多尺度嵌入通過聚類算法進(jìn)行處理,以向 MSDD 模塊提供初始化聚類結(jié)果。 MSDD 模塊使用簇平均說話人嵌入向量與輸入說話人嵌入式序列進(jìn)行比較。估計(jì)每個(gè)步驟的磅秤權(quán)重,以衡量每個(gè)磅秤的重要性。
最后,訓(xùn)練序列模型輸出每個(gè)說話人的說話人標(biāo)簽概率。
MSDD 機(jī)制

圖 4.根據(jù) MSDD 中的 1-D CNN 計(jì)算出的秤重量
在圖 4 中, 1-D 濾波器 從輸入嵌入和集群平均嵌入捕獲上下文。

圖 5.MSDD 的上下文向量
在圖 5 中,每個(gè)說話人和每個(gè)尺度的余弦相似性值由尺度權(quán)重加權(quán),形成加權(quán)余弦相似向量。
通過動(dòng)態(tài)計(jì)算每個(gè)尺度的權(quán)重,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型 MSDD 以利用多尺度方法。 MSDD 獲取初始聚類結(jié)果,并將提取的說話人嵌入與聚類平均說話人表示向量進(jìn)行比較。
最重要的是,每個(gè)時(shí)間步長的每個(gè)尺度的權(quán)重是通過尺度權(quán)重機(jī)制確定的,其中尺度權(quán)重是通過應(yīng)用于多尺度說話人嵌入輸入和簇平均嵌入的一維卷積神經(jīng)網(wǎng)絡(luò)( CNN )計(jì)算得出的(圖 3 )。
估計(jì)的尺度權(quán)重應(yīng)用于為每個(gè)說話人和每個(gè)尺度計(jì)算的余弦相似值。圖 5 顯示了通過對(duì)集群平均說話人嵌入和輸入說話人嵌入式之間計(jì)算出的余弦相似性(圖 4 )應(yīng)用估計(jì)的比例權(quán)重來計(jì)算上下文向量的過程。
最后,每個(gè)步驟的每個(gè)上下文向量都被送入一個(gè)多層 LSTM 模型,該模型生成每個(gè)說話人的說話人存在概率。圖 6 顯示了 LSTM 模型和上下文向量輸入如何估計(jì)說話人標(biāo)簽序列。

圖 6.使用 LSTM 的序列建模
圖 6 ,使用 LSTM 的序列建模接受上下文向量輸入并生成說話人標(biāo)簽。 MSDD 的輸出是兩個(gè)說話人在每個(gè)時(shí)間步存在說話人的概率值。
擬議的說話人日記系統(tǒng)旨在支持以下功能:
揚(yáng)聲器數(shù)量靈活
重疊感知區(qū)分
預(yù)訓(xùn)練說話人嵌入模型
揚(yáng)聲器數(shù)量靈活
MSDD 使用兩兩推理來記錄與任意數(shù)量說話人的對(duì)話。例如,如果有四個(gè)說話人,則提取六對(duì),并對(duì) MSDD 的推理結(jié)果進(jìn)行平均,以獲得四個(gè)說話人中每個(gè)人的結(jié)果。
重疊感知區(qū)分
MSDD 獨(dú)立估計(jì)每個(gè)步驟中兩個(gè)揚(yáng)聲器的兩個(gè)揚(yáng)聲器標(biāo)簽的概率(圖 6 )。這可以在兩個(gè)揚(yáng)聲器同時(shí)講話的情況下進(jìn)行重疊檢測。
預(yù)訓(xùn)練說話人嵌入模型
MSDD 基于預(yù)處理嵌入提取器( TitaNet )模型。通過使用預(yù)處理說話人模型,可以使用從相對(duì)大量的單說話人語音數(shù)據(jù)中學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)權(quán)重。
此外, MSDD 設(shè)計(jì)為使用經(jīng)過預(yù)處理的說話人進(jìn)行優(yōu)化,以在特定領(lǐng)域的說話者日記數(shù)據(jù)集上微調(diào)整個(gè)說話人日記系統(tǒng)。
實(shí)驗(yàn)結(jié)果和定量效益
提出的 MSDD 系統(tǒng)有幾個(gè)定量優(yōu)勢:卓越的時(shí)間分辨率和提高的準(zhǔn)確性。
卓越的時(shí)間分辨率
雖然單尺度聚類分解器在 1.5 秒的分段長度上表現(xiàn)出最佳性能,其中單位決策長度為 0.75 秒(半重疊),但提議的多尺度方法的單位決策長度是 0.25 秒。通過使用需要更多步驟和資源的更短移位長度,可以進(jìn)一步提高時(shí)間分辨率。
圖 2 顯示了多尺度方法的概念和 0.5 秒的單位決策長度。由于揚(yáng)聲器功能的保真度降低,僅將 0.5 秒的片段長度應(yīng)用于單刻度分劃器會(huì)顯著降低分劃性能。
提高準(zhǔn)確性
通過比較假設(shè)時(shí)間戳和地面真值時(shí)間戳來計(jì)算重化錯(cuò)誤率( DER )。圖 7 顯示了多尺度二值化方法相對(duì)于最先進(jìn)的單尺度聚類方法的量化性能。

圖 7.先前最先進(jìn)結(jié)果的定量評(píng)估 ( Landini et al. 2022 ) ,單尺度聚類法 ( prior work ) 和多尺度方法 ( proposed ) 關(guān)于三個(gè)不同的數(shù)據(jù)集
與單尺度聚類日記器相比,所提出的 MSDD 方法可以在兩個(gè)說話人數(shù)據(jù)集上減少多達(dá) 60% 的 DER 。
結(jié)論
擬議系統(tǒng)具有以下優(yōu)點(diǎn):
這是第一個(gè)應(yīng)用多尺度加權(quán)概念和基于序列模型( LSTM )的說話人標(biāo)簽估計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
加權(quán)方案集成在單個(gè)推理會(huì)話中,不需要像其他說話人日記化系統(tǒng)那樣融合多個(gè)日記化結(jié)果。
提出的多尺度分解系統(tǒng)能夠?qū)崿F(xiàn)重疊感知的分解,這是傳統(tǒng)基于聚類的分解系統(tǒng)無法實(shí)現(xiàn)的。
因?yàn)榻獯a器基于基于聚類的初始化,所以分音系統(tǒng)可以處理靈活數(shù)量的說話人。這表明您可以在兩個(gè)說話人數(shù)據(jù)集上訓(xùn)練建議的模型,然后使用它對(duì)兩個(gè)或更多說話人進(jìn)行分類。
雖然具有前面提到的所有優(yōu)點(diǎn),但與之前公布的結(jié)果相比,所提出的方法顯示了優(yōu)越的區(qū)分性能。
關(guān)于擬議系統(tǒng),未來有兩個(gè)研究領(lǐng)域:
我們計(jì)劃通過實(shí)現(xiàn)基于短期窗口聚類的二值化解碼器來實(shí)現(xiàn)該系統(tǒng)的流媒體版本。
可以研究從說話人嵌入提取器到二值化解碼器的端到端優(yōu)化,以提高說話人二值化性能。
關(guān)于作者
Taejin Park 在韓國首爾國立大學(xué)獲得電氣工程學(xué)士學(xué)位和電氣工程與計(jì)算機(jī)科學(xué)碩士學(xué)位。 2010 年和 2012 年。 2012 年,他加入韓國大田市電氣和電信研究所( ETRI ),擔(dān)任研究員。他畢業(yè)于南加州大學(xué)( USC ),獲得電氣工程博士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。 Taejin Park 目前在 NVIDIA 擔(dān)任應(yīng)用科學(xué)家。他的研究興趣包括機(jī)器學(xué)習(xí)和專注于說話人日記化的語音信號(hào)處理。
審核編輯:郭婷
-
解碼器
+關(guān)注
關(guān)注
9文章
1199瀏覽量
42663 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5444瀏覽量
108602
發(fā)布評(píng)論請(qǐng)先 登錄
關(guān)于labview中使用連續(xù)小波變換后接強(qiáng)度圖得到時(shí)間-尺度圖,如何將尺度轉(zhuǎn)換為頻率
基于尺度相乘的Canny改進(jìn)算法
基于Kalman濾波的多尺度融合估計(jì)新算法
單傳感器單模型動(dòng)態(tài)系統(tǒng)多尺度分解與估計(jì)新算法
模糊多尺度邊緣檢測算法的研究
基于小波分解的圖像融合方法及性能評(píng)價(jià)
基于多尺度小波分解和時(shí)間序列解決風(fēng)電場預(yù)測精度等問題
基于引導(dǎo)濾波的Retinex多尺度分解色調(diào)映射算法
基于多尺度HOG的草圖檢索
如何使用多尺度和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人群計(jì)數(shù)
如何使用跨尺度代價(jià)聚合實(shí)現(xiàn)改進(jìn)立體匹配算法
結(jié)合多尺度邊緣保持分解與PCNN的圖像融合方法

通過多尺度說話人分解實(shí)現(xiàn)動(dòng)態(tài)尺度加權(quán)
評(píng)論