水晶宫建筑

 首頁 >> 語言學
結合大規模語料與AI技術 推動瀕危語言?;すぷ?/span>
2019年09月10日 09:30 來源:中國社會科學網-中國社會科學報 作者:林茂燦 字號

內容摘要:

關鍵詞:

作者簡介:

  《中國語音學報》近期刊登了祖漪清等人的文章《用語言復制方法記錄瀕危語言——錫伯語案例》。該文提出一種用人工智能技術記錄瀕危語言的新方法,從中我們看到大規模語料與AI技術的深度結合對語言學研究、語言資源?;ひ約癆I技術發展將產生重要推動作用。

  通過主流語言保存瀕危語言

  2017年,美國科學家提出了話語羅塞塔(Speaking Rosetta)計劃,旨在通過未知語言的語音和已知語言的文本平行關系記錄沒有文字的未知語言(通常是瀕危語言)。

  祖漪清等人于2015年在工信部的“智能化語音技術及其產業化——面向少數民族的智能語音技術及其系統”項目中,開展錫伯語的語音合成工作。這一工作使他們產生了對瀕危語言進行語言復制的構想:利用語音合成、語音識別和機器翻譯等技術對瀕危語言進行語言復制。多語種、多發音人的語音識別系統在語言分類和語言共性研究等方面積累的經驗,可以借鑒運用到瀕危語言處理領域,并幫助開發者較快地實現一個瀕危語言的語言復制。

  這個構想提出的語言復制,是對一種語言的基本面貌進行的記錄。常規錄音數據至多能提高語言聲音效果,而一旦有了這個瀕危語言的語言復制系統,就可以輸入主流語言或參考語言的任意文字或語音,通過轉換輸出該瀕危語言相應的語音內容?;謚髁饔镅曰蠆慰加镅緣南低晨蚣?,完成語言復制需要建立目標語言的語音合成系統、語音識別系統以及該語言與主流語言之間的翻譯系統。語言復制系統輸出的語音并不是自然語音,而是通過語音合成技術合成出來的語音。當一個瀕危語言真的失傳了,人們仍然可以通過語音復制系統和該語言進行交互。

  語音技術拓展瀕危語言研究的空間

  有文字語言的語言復制系統框架大致如下:假設主流語言或參考語言為漢語普通話,目標語言為某瀕危語言,再輸入任意中文文字,系統可以輸出這個瀕危語言的語音。同樣輸入任意瀕危語言的文字,系統也可以輸出漢語的語音。

  目標語言語音合成系統是語言復制系統的基礎。語音合成系統在語言?;?、語言研究方面的意義遠遠大于實用意義。傳統的語音合成方法需要通過文本分析,將文本轉換成語音單元,然后將語音單元序列通過合成器轉換成聲音。在聲學建模的環節中,需要定義基本語音單元(例如音素、聲母韻母),同時還需要明確這些語音單元在連續話語中的韻律特征,即是否重讀、所處韻律結構的位置等。除此之外,基本語音單元還承載了句法功能、語用功能、情感表現等更高層次的語言學特征。如果將這些語言學特征正確地標注出來,訓練出的聲學模型就攜帶了更豐富的語言學內容。在生成合成語音時,就可以產生更豐富的表現力。

  同時,語音合成系統的輸出效果也可以檢驗語言學知識的輸入是否正確。對于主流語言,例如漢語普通話,基本語音結構的定義已經十分明確,在音段標注方面可以達到自動化水平,而包括篇章、對話、情感等其他語言學特征還有研究的空間。對于瀕危語言,基本語音結構尚未揭示清楚,利用語音合成技術可以得到完整分析。例如錫伯語的基本音素定義在連續話語中發生了大量音變,在數據標注過程中可以相對完整地發現音變規律,而孤立詞無法展現這些音段上的變化。如果僅僅依賴人工分析,為了排除其他音素的影響,通常只能使用孤立詞語進行分析。在語音合成的數據處理過程中,研究人員有機會對連續話語的每個片段分別進行音段分析,同時又在整體上對連續話語進行韻律等其他語言學層次的分析,通過數據標注將語言學知識傳達給語音合成系統,并通過語音合成的輸出檢驗知識的正確性。在這樣的研究模式下,一定可以推動語言學研究。

  前面的討論局限于有文字的瀕危語言處理。而沒有文字的瀕危語言記錄涉及的技術問題更為復雜,難度也更大,但是語音技術能夠為沒有文字的語言研究開拓更多的空間。

  語言資源?;び階I發展相輔相成

  漢語和少數民族語言學者,都可以利用這種語音合成系統開展自己的研究。我們認為,除了瀕危語言記錄,語言學家可以和人工智能工程師協作,在以下兩個方面率先行動起來:語音學家及語言學家利用已有知識對數據進行精細標注,標注內容包括語音結構、句法結構,直至篇章信息結構以及超音段等內容;將標注好的語料,利用智能語音合成系統作為研究平臺,通過合成驗證的方式來細致考察輸入的語言學知識是否正確。這種把大規模自然語料與人工智能AI相結合的研究方法,其成果既可研究基本語音結構,也可更深入全面地研究語句的焦點、韻律和語篇等的語言學問題,當然,也可進一步提高合成語音的自然度。

  在智能語言技術已經到來之際,語言學家和語音學家應該積極行動起來,做好語音與語言數據資源建設方面的工作,為我國AI產業的發展提供堅實的數據支撐。

 ?。ㄗ髡叩ノ唬褐泄緇崢蒲г河镅匝芯克?

作者簡介

姓名:林茂燦 工作單位:中國社會科學院語言研究所

轉載請注明來源:中國社會科學網 (責編:馬云飛)
W020180116412817190956.jpg
用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
 驗證碼 
所有評論僅代表網友意見
最新發表的評論0條,總共0 查看全部評論

QQ圖片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
內文頁廣告3(手機版).jpg
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|水晶宫建筑