久久久精品94久久精品,成人亚洲欧美一区二区三区,国产成人69视频午夜福利在线观看

GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮，目前諸多工作開始研究如何利用 LLM 來實現(xiàn)端到端的語音到語音（Speech-to-Speech）對話能力，但是目前大部分開源方案存在以下兩個問題：

LLM 災(zāi)難性遺忘：由于現(xiàn)有方案在語音模態(tài)與 LLM 進行對齊時，會或多或少對 LLM 進行微調(diào)，但由于要采集到與 LLM 本身訓(xùn)練的文本數(shù)據(jù)同等量級的語音數(shù)據(jù)是非常困難的，所以這一微調(diào)過程往往會導(dǎo)致 LLM 出現(xiàn)遺忘現(xiàn)象，造成 LLM 的聰明度下降

語音問答（Spoken Question Answering）任務(wù)的評估：多數(shù)工作對于語音問答的準確性并沒有進行定量評估，從已有的一些評估結(jié)果也可以看出同一模型語音問答和文本問答相比準確性會有明顯的差距

針對上述這些問題，近日騰訊&西工大&南大的研究人員提出了一種低延遲的端到端語音雙工對話模型 Freeze-Omni（VITA 大模型系列第二個工作），其可以在完全凍結(jié) LLM 的情況下，為 LLM 接入語音輸入和輸出，使其能夠支持端到端的語音對話能力，且通過一系列優(yōu)化使得其具備低延遲的雙工對話能力，其主要特性如下：

在整個訓(xùn)練過程中，LLM 的參數(shù)被完全凍結(jié)，確保大型語言模型的知識能力被完全保留；

訓(xùn)練過程中所依賴的數(shù)據(jù)規(guī)模較小，消耗的計算資源也較少。Freeze-Omni 僅需要文本-語音配對數(shù)據(jù)（如 ASR 和 TTS 訓(xùn)練數(shù)據(jù)，比較容易獲得）以及僅少量的文本模態(tài)的問答數(shù)據(jù)，語音問答準確性顯著超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型；

Freeze-Omni 可以支持任何具有文本模態(tài)的（多模態(tài)）大語言模型，能夠保留基底大語言模型的能力，如提示服從和角色扮演等。此外，如果有必要改變大語言模型的領(lǐng)域或者回應(yīng)方式，只需要用相應(yīng)的文本數(shù)據(jù)對大語言模型進行微調(diào)即可，不需要采集大量語音的問答和對話數(shù)據(jù)。

論文標題：

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

論文鏈接：

https://arxiv.org/abs/2411.00774

項目主頁：

https://freeze-omni.github.io/

開源代碼：

https://github.com/VITA-MLLM/Freeze-Omni

三階段訓(xùn)練策略實現(xiàn)語音輸入輸出能力

Freeze-Omni 的整體結(jié)構(gòu)如圖 1 所示，其包含有語音編碼器（Speech Encoder）和語音解碼器（Speech Decoder）以及基底 LLM 三部分。在運行過程中，流式的語音輸入通過語音編碼器形成分塊（Chunk）特征，然后通過 Adapter 連接到 LLM，LLM 生成的 Hidden State 和文本 Token 的在分塊分割后，分別以塊的形式送入非自回歸前綴語音解碼器（NAR Prefix Speech Decoder）和非自回歸語音解碼器（NAR Speech Decoder）以進行 Prefill 操作。最后自回歸語音解碼器（AR Speech Decoder）將會完成 Generate 操作以生成語音 Token，并由 Codec Decoder 將其流式解碼為語音信號輸出。

▲ 圖1. Freeze-Omni框架圖 Freeze-Omni 各個模塊的三階段訓(xùn)練策略如下：流式語音編碼器的三階段訓(xùn)練：如圖 2 所示，第一階段（a）會先使用 ASR 數(shù)據(jù)訓(xùn)練一個具有 ASR 能力的語音編碼。第二階段（b）會以 ASR 任務(wù)為優(yōu)化目標，將語音編碼器與 LLM 做模態(tài)對齊，這個過程中 LLM 是處于凍結(jié)狀態(tài)的。第三階段（c）會使用由 TTS 系統(tǒng)合成的語音輸入-文本回答的多輪 QA 數(shù)據(jù)進行訓(xùn)練，這里會使用第二階段訓(xùn)練好的語音編碼器，但是其參數(shù)保持凍結(jié)以保留其語音魯棒性，而可訓(xùn)練的參數(shù)只有每個問題前的 Prompt Embedding，用于指導(dǎo) LLM 從 ASR 任務(wù)遷移到 QA 任務(wù)中。

▲ 圖2. 流式語音編碼器的三階段訓(xùn)練示意圖流式語音解碼器的三階段訓(xùn)練：如圖 3 所示，第一階段（a）會先訓(xùn)練一個單碼本的語音編解碼模型，使用單碼本的目的主要是為了降低計算復(fù)雜度和時延。第二階段（b）將會訓(xùn)練 NAR 語音編碼器和 AR 語音編碼器，這里會使用文本-語音的 TTS 數(shù)據(jù)，其文本會通過基底 LLM 的 Tokenizer 轉(zhuǎn)化為 Token，再經(jīng)過基底 LLM 的 Embedding 層轉(zhuǎn)化為文本特征，這個過程中 Embedding 的參數(shù)是凍結(jié)的，訓(xùn)練目標的語音 Token 是由第一階段的語音編碼器提供。第三階段（c）將會凍結(jié)第二階段訓(xùn)練得到的所有網(wǎng)絡(luò)，但同時加入了一個 NAR Prefix 語音編碼器，其用于接受 LLM 輸出的 Hidden State，并將輸出的 kv-cache 作為第二階段模型的初始 kv-cache，該過程使用的數(shù)據(jù)是文本輸入-語音輸出的 QA 數(shù)據(jù)，主要目的是為了使得語音編碼器遷移到 LLM 的輸出領(lǐng)域中。

▲ 圖3. 流式語音解碼器的三階段訓(xùn)練示意圖雙工對話的狀態(tài)標簽訓(xùn)練：如圖 4 所示，為了實現(xiàn)雙工交互，F(xiàn)reeze-Omni 在語音編碼器訓(xùn)練的第三階段中，會為每個 Chunk 的最后一個語音幀對應(yīng)的 LLM 輸出 Hidden State 加入一個額外的分類層進行多任務(wù)訓(xùn)練，其目的主要是為了輸出狀態(tài)標簽。當使用 VAD 激活語音流輸入后，狀態(tài)標簽 0 表示 LLM 將會繼續(xù)接受語音 Chunk 的輸入，狀態(tài)標簽 1 表示 LLM 將會停止接收語音，且會打斷用戶并進入 LLM 的 Generate 階段輸出回復(fù)，狀態(tài)標簽 2 表示 LLM 也會停止接收語音，但不會打斷用戶，相當于對這次語音激活做了拒識。

▲ 圖4. 全雙工對話的狀態(tài)標簽訓(xùn)練示意圖

模型性能測評

訓(xùn)練配置：Freeze-Omni 在訓(xùn)練過程中，使用了開源 Qwen2-7B-Instruct 作為基底模型，語音編碼器在訓(xùn)練過程中使用了 11 萬小時中文英文混合的 ASR 數(shù)據(jù)，語音解碼器訓(xùn)練過程使用了 3000 小時由 TTS 系統(tǒng)合成的文本-語音數(shù)據(jù)，所提到的 QA 數(shù)據(jù)是由 6 萬條從 moss-003-sft-data 中抽取的多輪對話經(jīng)過 TTS 系統(tǒng)合成得到的。語音輸入理解能力評估：Freeze-Omni 提供了其在常見的英文測試集上的 ASR 性能測試結(jié)果，從中可以看出，其 ASR 準確性處于較為領(lǐng)先的水平。

▲ 圖5. 語音理解能力評估語音輸出質(zhì)量評估：Freeze-Omni 提供了其在 1000 條 LLM 輸出的 Hidden State 與 Text Token 上語音解碼器生成的語音在使用 ASR 模型測試得到的詞錯誤率（CER），從結(jié)果中可以看出 NAR Prefix 語音解碼器的引入會有效降低詞錯誤率，提高生成語音的質(zhì)量。

▲ 圖6. 語音輸出質(zhì)量評估語音問答準確性評估：Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三個集合上的語音問答準確率評估。從結(jié)果中可以看出 Freeze-Omni 的準確率具有絕對的領(lǐng)先水平，超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型，并且其語音模態(tài)下的準確率相比其基底模型 Qwen2-7B-Instruct 的文本問答準確率而言，差距明顯相比 Moshi 與其文本基底模型 Helium 的要小，足以證明 Freeze-Omni 的訓(xùn)練方式可以使得 LLM 在接入語音模態(tài)之后，聰明度和知識能力受到的影響最低。

▲ 圖7. 語音問答準確性評估系統(tǒng)延遲評估：Freeze-Omni 還提供了端到端時延分析（即用戶說完后到 LLM 輸出音頻的時間差），作者將其分為了可統(tǒng)計時延和不可統(tǒng)計時延兩部分，其中可統(tǒng)計時延的總時長平均數(shù)僅為 745ms，而作者也提到如果經(jīng)過測量考慮到網(wǎng)絡(luò)延遲和不可統(tǒng)計時延部分，則系統(tǒng)的平均響應(yīng)時延在 1.2s 左右，在行業(yè)內(nèi)仍為領(lǐng)先水平。

▲ 圖8. 系統(tǒng)延遲評估

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴