Google更新Cloud Speech API，錄音檔也能直接搜尋關鍵字！－joyful2days的部落格

更新雲端語音API（Google Cloud Speech API），除了新增時間標記功能，可辨識的語音檔案長度也從80分鐘增加到3小時，並一口氣新增30種可辨識語言，讓第三方開發商能在更多類型的服務中應用Google的語音辨識技術。

可在錄音檔中搜尋關鍵字、直接跳到關鍵字出現的段落

「語音」很可能是繼打字之後，未來人類和電腦溝通的主要方式，其不僅解放我們的雙手，互動速度也更快。Google在去年發佈這款能將語音轉成文字的雲端語音API，並將該功能整合進多款自家服務中，如語音助理、語音搜尋、翻譯、聽寫輸入等功能。

而這次更新的其中一個新功能，對常聽錄音檔的人相當必備。過去只有文字檔才能搜尋特定字詞，現在，在Google雲端語音API新增「以字為單位的時間標記」的功能後，語音檔也能做到相同的事，即可在語音檔中搜尋特定字詞出現的位置、直接跳到該段落，且錄音檔播放的同時也能立即顯示已辨識的文字。

此外，Google雲端語音API可支援的語音檔案長度，也從原本的80分鐘增加到3小時。Google產品經理Dan Aharon表示，支援更長時間的語音檔案，也能拓展該技術能應用的場景，例如客服中心可用此分析客服電話內容，或是用於自動生成影片字幕。

在支援語言方面，這次Google更一口氣新增30個語言，迄今共支援119種語言。Google表示，他們和母語人士合作，請他們念常用的句子，訓練機器學習模型辨識新語言的單字和音調。

特別的是，Google雲端語音API不只能辨識說話的「內容」，還能辨識出「表情符號」。例如，只要念出「眨眼表情符號」或「微笑表情符號」，就會出現和。不過，該功能目前僅支援英語，其他語言將在未來陸續開放。

joyful2days

joyful2days的部落格

joyful2days 發表在痞客邦留言(0) 人氣()

E-mail轉寄