18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過多尺度說話人分解實(shí)現(xiàn)動(dòng)態(tài)尺度加權(quán)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Taejin Park ? 2022-10-11 11:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說話人日記化是按說話人標(biāo)簽對(duì)錄音進(jìn)行分段的過程,旨在回答“誰在何時(shí)發(fā)言?”。與語音識(shí)別相比,它有著明顯的區(qū)別。

在你執(zhí)行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識(shí)別系統(tǒng)的一個(gè)基本特征,它可以用說話人標(biāo)簽豐富轉(zhuǎn)錄內(nèi)容。也就是說,如果沒有說話人日記化過程,會(huì)話錄音永遠(yuǎn)不能被視為完全轉(zhuǎn)錄,因?yàn)闆]有說話者標(biāo)簽的轉(zhuǎn)錄無法通知您是誰在和誰說話。

poYBAGNE5weAXAPzAAT1u1irANs872.png

圖 1.說話人區(qū)分是將音頻記錄劃分為說話人同質(zhì)區(qū)域的任務(wù)

說話人日記必須產(chǎn)生準(zhǔn)確的時(shí)間戳,因?yàn)樵跁?huì)話設(shè)置中,說話人的話輪數(shù)可能非常短。我們經(jīng)常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對(duì)機(jī)器轉(zhuǎn)錄和識(shí)別說話人來說很有挑戰(zhàn)性。

雖然根據(jù)說話人身份對(duì)音頻記錄進(jìn)行分段,但說話人日記化需要對(duì)相對(duì)較短的分段進(jìn)行細(xì)粒度決策,從十分之幾秒到幾秒不等。對(duì)如此短的音頻片段做出準(zhǔn)確、細(xì)粒度的決策是一項(xiàng)挑戰(zhàn),因?yàn)樗惶赡懿蹲降娇煽康恼f話人特征。

在本文中,我們討論了如何通過引入一種稱為多尺度方法和多尺度二值化解碼器( MSDD )的新技術(shù)來處理多尺度輸入來解決這個(gè)問題。

多尺度分割機(jī)制

就揚(yáng)聲器特征的質(zhì)量而言,提取長音頻段是可取的。然而,音頻段的長度也限制了粒度,這導(dǎo)致?lián)P聲器標(biāo)簽決策的單位長度較粗。如圖 2 所示的曲線所示,說話人區(qū)分系統(tǒng)面臨著時(shí)間分辨率和說話人表示保真度之間的權(quán)衡問題。

在說話人區(qū)分流水線中的說話人特征提取過程中,為了獲得高質(zhì)量的說話者表示向量,不可避免地要花費(fèi)較長的語音段來犧牲時(shí)間分辨率。在簡單明了的語言中,如果你試圖準(zhǔn)確掌握語音特征,那么你必須考慮更長的時(shí)間跨度。

同時(shí),如果你考慮更長的時(shí)間跨度,你必須在相當(dāng)長的時(shí)間跨度內(nèi)做出決定。這會(huì)導(dǎo)致粗決策(時(shí)間分辨率低)。想想這樣一個(gè)事實(shí),如果只錄下半秒鐘的講話,即使是人類聽眾也無法準(zhǔn)確地說出誰在講話。

在大多數(shù)分音系統(tǒng)中,音頻段長度在 1.5 到 3.0 秒之間,因?yàn)檫@樣的數(shù)字在揚(yáng)聲器特性的質(zhì)量和時(shí)間分辨率之間取得了很好的折衷。這種分割方法稱為 single-scale approach 。

即使使用重疊技術(shù),單尺度分割也將時(shí)間分辨率限制在 0.75 ~ 1.5 秒,這在時(shí)間精度方面留下了改進(jìn)的空間。

粗略的時(shí)間分辨率不僅會(huì)降低二值化的性能,而且會(huì)降低說話人計(jì)數(shù)的準(zhǔn)確性,因?yàn)槎陶Z音片段無法正確捕獲。 更重要的是,說話人時(shí)間戳中的這種粗時(shí)間分辨率使得解碼后的 ASR 文本與說話人區(qū)分結(jié)果之間的匹配更容易出錯(cuò)。

為了解決這個(gè)問題,我們提出了一種多尺度方法,這是一種通過從多段長度中提取說話人特征,然后將多尺度的結(jié)果結(jié)合起來來處理這種權(quán)衡的方法。多尺度技術(shù)在最流行的說話人方言化基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的精度。它已經(jīng)是開源會(huì)話 AI 工具包 NVIDIA NeMo 的一部分。

圖 2 顯示了多尺度揚(yáng)聲器分辨率的關(guān)鍵技術(shù)解決方案。

pYYBAGNE5wiASmKrAAKTpiqNJ4w141.png

圖 2.說話人表示的時(shí)間分辨率和保真度的相應(yīng)折衷曲線

多尺度方法通過使用多尺度分割和從每個(gè)尺度提取說話人嵌入來實(shí)現(xiàn)。在圖 2 的左側(cè),在多尺度分割方法中執(zhí)行了四種不同的尺度。

在段關(guān)聯(lián)性計(jì)算過程中,將合并從最長刻度到最短刻度的所有信息,但只對(duì)最短的段范圍作出決策。當(dāng)組合每個(gè)音階的特征時(shí),每個(gè)音階權(quán)重在很大程度上影響說話人的區(qū)分性能。

基于神經(jīng)模型的多尺度分解流水線

由于刻度權(quán)重在很大程度上決定了說話人區(qū)分系統(tǒng)的準(zhǔn)確性,因此應(yīng)設(shè)置刻度權(quán)重以使說話人的區(qū)分性能達(dá)到最大。

我們提出了一種稱為 multiscale diarization decoder ( MSDD )的新型多尺度二值化系統(tǒng),該系統(tǒng)在每個(gè)時(shí)間步長動(dòng)態(tài)確定每個(gè)尺度的重要性。

說話人日記系統(tǒng)依賴于被稱為說話人嵌入的音頻特征向量捕獲的說話人特征。通過神經(jīng)模型提取說話人嵌入向量,從給定的音頻信號(hào)中生成稠密浮點(diǎn)數(shù)向量。

MSDD 從多個(gè)尺度中提取多個(gè)說話人嵌入向量,然后估計(jì)所需的尺度權(quán)重。基于估計(jì)的音階權(quán)重,生成揚(yáng)聲器標(biāo)簽。如果輸入信號(hào)被認(rèn)為在某些尺度上具有更準(zhǔn)確的信息,則所提出的系統(tǒng)在大尺度上的權(quán)重更大。

圖 3 顯示了提議的多尺度說話人分離系統(tǒng)的數(shù)據(jù)流。從音頻輸入中提取多尺度分段,并使用揚(yáng)聲器嵌入提取器( TitaNet )生成用于多尺度音頻輸入的相應(yīng)揚(yáng)聲器嵌入向量。

poYBAGNE5wmAMGO8AAKQMyg0J0A993.png

圖 3.擬建 多尺度說話人識(shí)別系統(tǒng) 的數(shù)據(jù)流

提取的多尺度嵌入通過聚類算法進(jìn)行處理,以向 MSDD 模塊提供初始化聚類結(jié)果。 MSDD 模塊使用簇平均說話人嵌入向量與輸入說話人嵌入式序列進(jìn)行比較。估計(jì)每個(gè)步驟的磅秤權(quán)重,以衡量每個(gè)磅秤的重要性。

最后,訓(xùn)練序列模型輸出每個(gè)說話人的說話人標(biāo)簽概率。

MSDD 機(jī)制

Scale-weights.png

圖 4.根據(jù) MSDD 中的 1-D CNN 計(jì)算出的秤重量

在圖 4 中, 1-D 濾波器 從輸入嵌入和集群平均嵌入捕獲上下文。

pYYBAGNE5xCATUlOAAURzFKy_fo156.png

圖 5.MSDD 的上下文向量

在圖 5 中,每個(gè)說話人和每個(gè)尺度的余弦相似性值由尺度權(quán)重加權(quán),形成加權(quán)余弦相似向量。

通過動(dòng)態(tài)計(jì)算每個(gè)尺度的權(quán)重,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型 MSDD 以利用多尺度方法。 MSDD 獲取初始聚類結(jié)果,并將提取的說話人嵌入與聚類平均說話人表示向量進(jìn)行比較。

最重要的是,每個(gè)時(shí)間步長的每個(gè)尺度的權(quán)重是通過尺度權(quán)重機(jī)制確定的,其中尺度權(quán)重是通過應(yīng)用于多尺度說話人嵌入輸入和簇平均嵌入的一維卷積神經(jīng)網(wǎng)絡(luò)( CNN )計(jì)算得出的(圖 3 )。

估計(jì)的尺度權(quán)重應(yīng)用于為每個(gè)說話人和每個(gè)尺度計(jì)算的余弦相似值。圖 5 顯示了通過對(duì)集群平均說話人嵌入和輸入說話人嵌入式之間計(jì)算出的余弦相似性(圖 4 )應(yīng)用估計(jì)的比例權(quán)重來計(jì)算上下文向量的過程。

最后,每個(gè)步驟的每個(gè)上下文向量都被送入一個(gè)多層 LSTM 模型,該模型生成每個(gè)說話人的說話人存在概率。圖 6 顯示了 LSTM 模型和上下文向量輸入如何估計(jì)說話人標(biāo)簽序列。

poYBAGNE5xGARmLYAADsY_Jbi1E774.png

圖 6.使用 LSTM 的序列建模

圖 6 ,使用 LSTM 的序列建模接受上下文向量輸入并生成說話人標(biāo)簽。 MSDD 的輸出是兩個(gè)說話人在每個(gè)時(shí)間步存在說話人的概率值。

擬議的說話人日記系統(tǒng)旨在支持以下功能:

揚(yáng)聲器數(shù)量靈活

重疊感知區(qū)分

預(yù)訓(xùn)練說話人嵌入模型

揚(yáng)聲器數(shù)量靈活

MSDD 使用兩兩推理來記錄與任意數(shù)量說話人的對(duì)話。例如,如果有四個(gè)說話人,則提取六對(duì),并對(duì) MSDD 的推理結(jié)果進(jìn)行平均,以獲得四個(gè)說話人中每個(gè)人的結(jié)果。

重疊感知區(qū)分

MSDD 獨(dú)立估計(jì)每個(gè)步驟中兩個(gè)揚(yáng)聲器的兩個(gè)揚(yáng)聲器標(biāo)簽的概率(圖 6 )。這可以在兩個(gè)揚(yáng)聲器同時(shí)講話的情況下進(jìn)行重疊檢測。

預(yù)訓(xùn)練說話人嵌入模型

MSDD 基于預(yù)處理嵌入提取器( TitaNet )模型。通過使用預(yù)處理說話人模型,可以使用從相對(duì)大量的單說話人語音數(shù)據(jù)中學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)權(quán)重。

此外, MSDD 設(shè)計(jì)為使用經(jīng)過預(yù)處理的說話人進(jìn)行優(yōu)化,以在特定領(lǐng)域的說話者日記數(shù)據(jù)集上微調(diào)整個(gè)說話人日記系統(tǒng)。

實(shí)驗(yàn)結(jié)果和定量效益

提出的 MSDD 系統(tǒng)有幾個(gè)定量優(yōu)勢:卓越的時(shí)間分辨率和提高的準(zhǔn)確性。

卓越的時(shí)間分辨率

雖然單尺度聚類分解器在 1.5 秒的分段長度上表現(xiàn)出最佳性能,其中單位決策長度為 0.75 秒(半重疊),但提議的多尺度方法的單位決策長度是 0.25 秒。通過使用需要更多步驟和資源的更短移位長度,可以進(jìn)一步提高時(shí)間分辨率。

圖 2 顯示了多尺度方法的概念和 0.5 秒的單位決策長度。由于揚(yáng)聲器功能的保真度降低,僅將 0.5 秒的片段長度應(yīng)用于單刻度分劃器會(huì)顯著降低分劃性能。

提高準(zhǔn)確性

通過比較假設(shè)時(shí)間戳和地面真值時(shí)間戳來計(jì)算重化錯(cuò)誤率( DER )。圖 7 顯示了多尺度二值化方法相對(duì)于最先進(jìn)的單尺度聚類方法的量化性能。

pYYBAGNE5xKASPcxAAC_wa06R_w937.png

圖 7.先前最先進(jìn)結(jié)果的定量評(píng)估 ( Landini et al. 2022 ) ,單尺度聚類法 ( prior work ) 和多尺度方法 ( proposed ) 關(guān)于三個(gè)不同的數(shù)據(jù)集

與單尺度聚類日記器相比,所提出的 MSDD 方法可以在兩個(gè)說話人數(shù)據(jù)集上減少多達(dá) 60% 的 DER 。

結(jié)論

擬議系統(tǒng)具有以下優(yōu)點(diǎn):

這是第一個(gè)應(yīng)用多尺度加權(quán)概念和基于序列模型( LSTM )的說話人標(biāo)簽估計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

加權(quán)方案集成在單個(gè)推理會(huì)話中,不需要像其他說話人日記化系統(tǒng)那樣融合多個(gè)日記化結(jié)果。

提出的多尺度分解系統(tǒng)能夠?qū)崿F(xiàn)重疊感知的分解,這是傳統(tǒng)基于聚類的分解系統(tǒng)無法實(shí)現(xiàn)的。

因?yàn)榻獯a器基于基于聚類的初始化,所以分音系統(tǒng)可以處理靈活數(shù)量的說話人。這表明您可以在兩個(gè)說話人數(shù)據(jù)集上訓(xùn)練建議的模型,然后使用它對(duì)兩個(gè)或更多說話人進(jìn)行分類。

雖然具有前面提到的所有優(yōu)點(diǎn),但與之前公布的結(jié)果相比,所提出的方法顯示了優(yōu)越的區(qū)分性能。

關(guān)于擬議系統(tǒng),未來有兩個(gè)研究領(lǐng)域:

我們計(jì)劃通過實(shí)現(xiàn)基于短期窗口聚類的二值化解碼器來實(shí)現(xiàn)該系統(tǒng)的流媒體版本。

可以研究從說話人嵌入提取器到二值化解碼器的端到端優(yōu)化,以提高說話人二值化性能。

關(guān)于作者

Taejin Park 在韓國首爾國立大學(xué)獲得電氣工程學(xué)士學(xué)位和電氣工程與計(jì)算機(jī)科學(xué)碩士學(xué)位。 2010 年和 2012 年。 2012 年,他加入韓國大田市電氣和電信研究所( ETRI ),擔(dān)任研究員。他畢業(yè)于南加州大學(xué)( USC ),獲得電氣工程博士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。 Taejin Park 目前在 NVIDIA 擔(dān)任應(yīng)用科學(xué)家。他的研究興趣包括機(jī)器學(xué)習(xí)和專注于說話人日記化的語音信號(hào)處理。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1199

    瀏覽量

    42663
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5444

    瀏覽量

    108602
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    尺度變換

    請(qǐng)問在labview中如何實(shí)現(xiàn)信號(hào)的尺度變換啊
    發(fā)表于 05-05 15:47

    關(guān)于labview中使用連續(xù)小波變換后接強(qiáng)度圖得到時(shí)間-尺度圖,如何將尺度轉(zhuǎn)換為頻率

    在labview中使用連續(xù)小波變換得到時(shí)間-尺度圖,如何將尺度轉(zhuǎn)換為頻率?我在網(wǎng)上查了一下,說是尺度對(duì)應(yīng)的實(shí)際頻率Fa=(Fc×fs)/a,其中Fa為實(shí)際頻率,F(xiàn)c為小波中心頻率,fs為采樣頻率,a為
    發(fā)表于 05-12 17:39

    基于尺度相乘的Canny改進(jìn)算法

    在Canny 算法框架下,對(duì)圖像進(jìn)行多尺度濾波分析。定義尺度乘積函數(shù)為2 個(gè)不同尺度濾波器的響應(yīng)乘積,由相鄰尺度近似性確定乘積后的幅值和相角,再選擇閾值剔除偽邊緣,由非極
    發(fā)表于 03-30 08:58 ?8次下載

    基于Kalman濾波的多尺度融合估計(jì)新算法

    將信號(hào)的多尺度分析方法與多傳感器數(shù)據(jù)融合技術(shù)相結(jié)合,基于某一尺度上給定的狀態(tài)模型和在不同尺度上擁有不同采樣率的多傳感器分布式動(dòng)態(tài)系統(tǒng),提出了一種新的基于Kalman 濾波
    發(fā)表于 06-22 13:15 ?21次下載

    單傳感器單模型動(dòng)態(tài)系統(tǒng)多尺度分解與估計(jì)新算法

    本文將基于模型的動(dòng)態(tài)系統(tǒng)分析方法與具有統(tǒng)計(jì)特性的多尺度信號(hào)變換方法相結(jié)合,基于某一尺度上給定的單傳感器單模型動(dòng)態(tài)系統(tǒng),建立起一個(gè)新的多尺度
    發(fā)表于 06-23 08:51 ?12次下載

    模糊多尺度邊緣檢測算法的研究

    為了解決多尺度邊緣檢測中有效檢出和精確定位的矛盾,本文提出了一種新的模糊多尺度邊緣檢測算法。該算法以圖像的小波分解為基礎(chǔ),把圖像的多尺度信息描述為模糊矩陣,然
    發(fā)表于 07-08 08:37 ?10次下載

    基于小波分解的圖像融合方法及性能評(píng)價(jià)

    給出了一種新的基于小波多尺度分解的分層圖像融合方法. 其基本思想是先對(duì)源圖像進(jìn)行小波多尺度分解; 其次, 按照融合規(guī)則, 采用基于區(qū)域特性量測的選擇及
    發(fā)表于 07-17 10:44 ?12次下載

    基于加權(quán)尺度張量子空間的人臉圖像特征提取方法_王仕民

    基于加權(quán)尺度張量子空間的人臉圖像特征提取方法_王仕民
    發(fā)表于 01-08 10:57 ?1次下載

    基于多尺度小波分解和時(shí)間序列解決風(fēng)電場預(yù)測精度等問題

    針對(duì)目前風(fēng)電場風(fēng)速預(yù)測精度較低的問題,提出一種基于多尺度小波分解和時(shí)間序列法的混合風(fēng)速預(yù)測模型,通過小波分解將風(fēng)速非平穩(wěn)時(shí)間序列分解為不同
    發(fā)表于 10-21 09:40 ?3次下載
    基于多<b class='flag-5'>尺度</b>小波<b class='flag-5'>分解</b>和時(shí)間序列解決風(fēng)電場預(yù)測精度等問題

    基于引導(dǎo)濾波的Retinex多尺度分解色調(diào)映射算法

    傳統(tǒng)的低動(dòng)態(tài)范圍顯示設(shè)備不能很好地表現(xiàn)高動(dòng)態(tài)范圍圖像信息,針對(duì)這一問題,提出一種基于引導(dǎo)濾波的Retinex多尺度分解色調(diào)映射算法。該算法使用引導(dǎo)濾波對(duì)光照信息進(jìn)行估計(jì),將高
    發(fā)表于 11-21 15:38 ?14次下載
    基于引導(dǎo)濾波的Retinex多<b class='flag-5'>尺度</b><b class='flag-5'>分解</b>色調(diào)映射算法

    基于多尺度HOG的草圖檢索

    基于興趣點(diǎn)的多尺度HOG特征。利用圖像的多尺度HOG特征集生成視覺詞典,最終形成與視覺詞典相關(guān)的特征描述向量,通過相似度匹配實(shí)現(xiàn)草圖檢索。將該算法與單一
    發(fā)表于 12-04 09:56 ?0次下載

    如何使用多尺度和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人群計(jì)數(shù)

    描述人群信息,消除人群遮擋影響;其次通過構(gòu)建多尺度卷積神經(jīng)網(wǎng)絡(luò)解決人群尺度不一問題,以多任務(wù)學(xué)習(xí)機(jī)制同時(shí)估計(jì)密度圖及人群密度等級(jí),解決人群分布不均問題;最后設(shè)計(jì)一種加權(quán)損失函數(shù),提高人
    發(fā)表于 01-18 16:47 ?9次下載

    如何使用跨尺度代價(jià)聚合實(shí)現(xiàn)改進(jìn)立體匹配算法

    針對(duì)現(xiàn)有的立體匹配算法在精度和速度上不可兼得的現(xiàn)狀,提出一種改進(jìn)的跨尺度代價(jià)聚合立體匹配算法。通過強(qiáng)度和梯度算法計(jì)算匹配代價(jià),利用引導(dǎo)濾波聚合匹配代價(jià),采用跨尺度模型聚合各尺度的匹配代
    發(fā)表于 02-02 14:36 ?10次下載
    如何使用跨<b class='flag-5'>尺度</b>代價(jià)聚合<b class='flag-5'>實(shí)現(xiàn)</b>改進(jìn)立體匹配算法

    結(jié)合多尺度邊緣保持分解與PCNN的圖像融合方法

    在醫(yī)學(xué)圖像融合過程中,傳統(tǒng)多尺度分析方法多采用線性濾波器,由于無法保留圖像邊緣特征導(dǎo)致分解階段的強(qiáng)邊緣處岀現(xiàn)模糊,從而產(chǎn)生光暈。為提髙融合圖像的視覺感知效果,通過結(jié)合多尺度邊緣保持
    發(fā)表于 03-23 15:54 ?16次下載
    結(jié)合多<b class='flag-5'>尺度</b>邊緣保持<b class='flag-5'>分解</b>與PCNN的圖像融合方法

    基于局部加權(quán)擬合的無人機(jī)遙感影像多尺度檢測

    基于局部加權(quán)擬合的無人機(jī)遙感影像多尺度檢測
    發(fā)表于 06-23 11:56 ?28次下載