首個可保留情感的音頻LLM！Meta重磅開源7B-Spirit LM，一網打盡「音頻+文本」多模態任務

2024年11月22日 14:33:31 來源：新智元公眾號

　　Meta最近開源了一個7B尺寸的Spirit LM的多模態語言模型，能夠理解和生成語音及文本，可以非常自然地在兩種模式間轉換，不僅能處理基本的語音轉文本和文本轉語音任務，還能捕捉和再現語音中的情感和風格。

　　在純文本大模型取得進展的同時，其他模態數據，如語音與文本結合的語言模型(SpeechLMs)也成為了一個熱門的研究領域，但現有的模型要么在僅包含語音的數據上進行訓練，要么是關注特定任務，如文本轉語音(TTS)、自動語音識別(ASR)或翻譯，在其他模態數據和任務上的泛化能力十分有限。

　　在大型語言模型(LLM)性能不斷提升的情況下，一個常用的方法是先用ASR模型將語音轉錄成文本，然后用文本模型來生成新的文本，最后再用TTS模型將文本轉換成語音，這種流程的一個顯著缺陷就是語音表達性不佳，語言模型無法建模并生成富有表現力的語音數據。

　　最近，Meta開源了一個基礎多模態語言模型Spirit LM，基于一個70億參數的預訓練文本語言模型，交錯使用文本和語音數據進行訓練，使模型能夠自由地混合文本和語音，在任一模態中生成語言內容。

　　將語音和文本序列拼接成一條token流，并使用一個小型的、自動整理(automatically-curated)的語音-文本平行語料庫，采用逐詞交錯的方法進行訓練。

　　Spirit LM有兩個版本:基礎版（Base）使用語音音素單元(HuBERT)，表達版（Expressive）還額外使用音高和風格單元來模擬表達性，以增強模型在生成語音時的表現力，也就是說模型不僅能夠理解和生成基本的語音和文本，還能在表達情感和風格方面表現得更加豐富和自然。

　　對于兩個版本的模型，文本都使用子詞BPE標記進行編碼，最終得到的模型既展現了文本模型的語義能力，也具備語音模型的表達能力;模型還能夠在少量樣本的情況下跨模態學習新任務(例如自動語音識別、文本轉語音、語音分類)。

　　不過需要注意的是，和其他預訓練模型一樣，Sprit LM也可能會生成一些不安全的內容，所有基于該技術的應用都需要進行額外的安全測試和調整。

　　Spirit LM

　　模型的架構比較簡單，訓練過程就是基本的「預測下一個詞」，不過「詞」是通過編碼器從語音或文本中提取的，然后通過解碼器以原來的模態進行重新呈現;訓練數據包括三種:僅包含文本的序列、僅包含語音的序列以及交錯的語音-文本序列的混合數據。

　　基礎版

　　語音編碼器

　　使用的HuBERT模型，該模型在多個數據集的混合上進行訓練，包括多語言的LibriSpeech、Vox Populi、Common Voice、Spotify以及Fisher，最后得到一個包含501個音素語音token的詞匯表。

　　語音和文本分詞器

　　使用LLaMA默認的分詞器來處理文本，使用前述的HuBERT分詞器來處理語音;為了提高模型的質量，對HuBERT的token進行了去重處理;對于單模態數據集(僅文本和僅語音)，在分詞后的數據前加上相應的模態標記。

　　文本數據:[TEXT]這是一個文本句子

　　音頻數據:[SPEECH][Hu262][Hu208][Hu499][Hu105]

　　交錯語音和文本（Interleaving Speech and Text）

　　對于對齊的語音+文本數據集，通過在單詞級別交錯語音和文本來混合:[TEXT]the cat [SPEECH][Hu3][Hu7]..[Hu200][TEXT]the mat

　　研究人員認為，交錯訓練可以幫助模型學習語音和文本之間的對應關系，從而實現更好的文本到語音的轉換;在每個訓練步驟中，句子中的語音和文本部分是隨機采樣的。

　　語音解碼器

　　在從語音token進行語音合成方面，研究人員在Expresso數據集上訓練了一個HifiGAN聲碼器，其依賴于HuBERT語音token和Expresso特定說話人的嵌入向量。

　　在訓練期間，HifiGAN模型會輸入重復的token，但同時也會訓練一個時長預測模塊，可以更準確地知道每個語音token在實際語音中應該持續多久，最終生成一個語音波形。

　　表達版

　　HuBERT能夠從語音中捕獲良好的音素信息，但在表達性方面表現不佳。

　　研究人員的目標是在不依賴生物特征識別的情況下，模型依然能夠理解和保留輸入語音中的情感，所以需要用額外的音高token和風格token來補充HuBERT的音素語音token，并將其包含在語言模型訓練中，以便訓練后的Spirit LM Expressive模型能夠捕獲并生成更具表現力的語音。

　　pitch（音高） token

　　在語音合成和處理中，音高是一個關鍵因素，決定了聲音的高低，對人類理解語句的情感和語氣來說非常關鍵。音高token可以用來捕捉音高變化。當我們說話時，聲音的高低起伏不僅可以表達不同的情感，比如興奮時聲音高亢，悲傷時聲音低沉，還可以幫助我們在口語交流中區分不同的詞語和句子的意圖。

　　研究人員在Expresso數據集上訓練了一個VQ-VAE模型，碼本大小為64，下采樣率為128，即每秒可以產生12.5個音高token;在訓練音高量化器時，使用pyaapt8提取基頻(F0);使用FCPE9，一個基于Transformer的快速音高估計器，來提高推理速度。

　　style（風格） token

　　研究人員提取了語音風格特征來捕捉輸入語音的表達風，在輸入片段上進行平均池化處理，每秒生成一個特征，然后在Expresso數據集上微調特征來預測表達風格，從而進一步從語音風格特征中去除說話人信息，最后在Expresso數據集的規范化特征上訓練了一個有100個單元的k均值聚類。

　　表達性語音分詞器（Expressive Speech Tokenization）

　　將三種類型的標記(每秒25次的HuBERT標記、每秒12.5次的音高標記和每秒1次的風格標記)按照對應的時間戳進行排序，混合成一個單一的token序列。

　　與Spirit LM基礎版相同，表達版同樣對HuBERT的token和音高token進行去重，最后輸入序列類似于:[SPEECH][St10][Pi0][Hu28][Hu22][Pi14][Hu15][Pi32][Hu78][Hu234][Hu468]

　　表達性語音解碼器（Expressive Speech Decoder）

　　研究人員訓練了一個HifiGAN模型，依賴于HuBERT token、音高token、風格token以及來自Expresso聲音的1-hot說話人嵌入向量。同時還訓練了一個時長預測器來預測HuBERT token持續時間。在推理過程中，將每個HuBERT token與相應的音高token和風格標記token，并根據需要進行重復。

　　實驗結果

　　Spirit LM能夠在接收語音token或文本token的提示時，生成語義和表達上一致的內容，將通過定量評估一系列需要生成文本或語音token的基準測試，特別評估Spirit LM在單模態和跨模態場景中的語義能力。

　　自動語音識別(ASR)和文本轉語音(TTS)

　　與文本語言模型類似，SPIRIT語言智能體可以通過少量樣本提示來執行特定任務。

　　可以看到，Spirit LM使用10個樣本的提示能夠獲得最佳性能，最佳模型在Librispeech清潔數據上的詞錯誤率為21.9，文本轉語音的字符錯誤率為45.5

　　在訓練中加入平行的ASR和TTS樣本可以極大提高性能，但加入ASR和TTS數據對其他任務的影響非常有限。

　　在執行語音意圖分類(IC)任務時可以發現，隨著樣本數量的增加，準確率也提高了，模型準確率達到了79%

　　跨模態對齊

　　為了更好地理解模型在僅在交錯數據和原始語音和文本上訓練的情況下，如何實現良好的跨模態性能的隱藏機制，研究人員查看了模型特征的token級相似性，其中特征來自于HuBERT token的輸入序列和相應的BPE token，計算了從不同層提取的語音和文本特征的相同單詞的最大相似性。

　　結果發現，模型內部口語和書面序列之間的相似性從第2層和第20層開始增加，并且在早期到中間層中，在用單詞級轉錄訓練的模型中效果較差，表明模態混合可以對齊語音和文本，使模型能夠將語音序列與相應的文本序列映射起來。

　　表達性建模

　　當不給智能體任何先前的樣本，直接根據語音或文本提示生成內容(零樣本)時，可以發現帶有額外音高和風格token的表達版模型在大多數情況下都比基礎版模型的表現更好，只是在文本內容生成(文本到文本)方面兩者表現差不多。

　　當給模型少量樣本來學習時，可以發現這種方法對于除了語音內容生成(語音到語音)之外的所有情況都有幫助。無論是零樣本還是少量樣本，保持情感的連續性在相同類型的數據(比如文本到文本或語音到語音)中比在不同類型的數據(比如語音到文本)中做得更好;在所有測試中，語音到文本的方向得分最低。

　　此外，研究人員還直接評估了模型對輸入提示的處理能力，結果發現，無論是哪種提示，模型都能得到很高的評分，表明還有很大的空間來進一步提高模型在保持情感表達方面的能力，也意味著，智能體在理解和生成情感豐富的內容方面還有很大的潛力可以挖掘。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

首個可保留情感的音頻LLM！Meta重磅開源7B-Spirit LM，一網打盡「音頻+文本」多模態任務

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

首個可保留情感的音頻LLM！Meta重磅開源7B-Spirit LM，一網打盡「音頻+文本」多模態任務

擴展閱讀

最新新聞

熱門新聞