Computer Speech and Language Lessons PPT PDF
Document Details
![YouthfulObsidian8877](https://quizgecko.com/images/avatars/avatar-19.webp)
Uploaded by YouthfulObsidian8877
香港聖公會聖馬利亞堂莫慶堯中學
Tags
Summary
This document is a PowerPoint presentation that discusses computer speech and language. It covers topics such as text-to-speech (TTS) synthesis, linguistic hierarchy, and the process of TTS. It also discusses how the design is inspired by knowledge in different linguistic layers.
Full Transcript
單元五 電腦語音與語言 ( 一 ) 目錄 語音與語言智能簡介 語言學知識 文字轉語音系統的評估 語音與智能 處理人類語言的能力,被視為是一種具備智能的 象徵 能夠理解語音及生成語音的技術,是人工智能核 心技術之一 語音合成,也稱為文字轉語音 (TTS) ,接受文字 輸入並生成語音輸出。 活動一︰語音...
單元五 電腦語音與語言 ( 一 ) 目錄 語音與語言智能簡介 語言學知識 文字轉語音系統的評估 語音與智能 處理人類語言的能力,被視為是一種具備智能的 象徵 能夠理解語音及生成語音的技術,是人工智能核 心技術之一 語音合成,也稱為文字轉語音 (TTS) ,接受文字 輸入並生成語音輸出。 活動一︰語音特性 語音包含豐富的資訊 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 活動一︰語音特性 語音包含豐富的資訊 1. 意思 2. 意圖 3. 口音 4. 年齡 5. 態度 6. 教育程度 7. 情緒 8. 性別 9. 健康狀況 10. 語言能力 11. 個性 活動二︰文字轉語音的日常應用例子 活動二︰請列出兩個文字轉語音的日常應用例子 例子一 例子二 例子三 例子四 活動二︰文字轉語音的日常應用例子 活動二︰請列出兩個文字轉語音的日常應用例子 例子一 例子二 例子三 例子四 對於視力有問題的人, 有言語障礙的人可以使 自動廣播系統 學習新語言時機器能 機器可以讀出文字以 用機器生成自然的語音 夠製作音頻發音以作 供收聽 參考 7 Linguistic Hierarchy 句子 “ 我 愛 香港” 我 愛 香港 文字到語音合成系統 語法 代語 動語 名詞 的設計從有關語言學 我 階層的語言知識中汲 詞語 / 短語 愛 取靈感 香港 音素 aɪ lʌv hɔŋ kɔŋ 原聲 Process of Text-to-Speech Synthesis 接受文字輸入 文字分析 波形成生 輸入例子︰ 文字規範化 輸出︰ “ I am the 文字轉音位 合成的語音 1st” 韻律預測 Text Analysis: Text Normalisation 文字規範化︰書面文字被轉換為「可朗讀」的詞 “I am the 1st” “I am the first” Text Analysis: Text-to-Phoneme Mapping 文字轉音位︰單詞被轉換為語音標籤 “I am the first” “/aɪ/ /æm/ /ðə/ /fɜrst/” Text Analysis: Prosody Prediction 韻律預測︰預測句子的特徵 特徵︰語調、時間長度和能量(即聲量) “I am the first” 是問疑問句 是 否 語調上升 語調下降 I am the first? I am the first. Waveform Generation 波形生成︰語言表示轉換為波形 語調下降 “/aɪ/ /æm/ /ðə/ /fɜrst/” I am the first. 合成的語音 Tr 人工智能 ning TTS 的 IPO 過程 Testing 使用已訓練的模型 M* 進行 TTS 的測試過程 TTS Evaluation 主觀測量 計算合成語音波形和相應的人類語音 比較受到各種因素所影響的意見分數 波形之間的數學距離 例如平均意見分數( MOS ) 距離越短,質量越好 學習總結 文字轉語音 (TTS) 的功能是接受文 文字轉語音涉及文字分析及波形生成。 字輸入,並生成合成語音輸出。 使用文字轉語音科技的目標是令機 文字轉語音系統生成的合成語音可 器「說話」清晰、自然、富有表現 以用客觀和主觀測量作評估。 力,能夠像人類一樣有效地交流。 文字轉語音系統通常參考人類口語 的語言結構,遵循從高至低的語言 階層的語音結構,包括句子、語法、 詞語/短語、音素和原聲。