Googleのテキスト音声変換APIにメジャー・アップデート――音声認識も改善

今日（米国時間4/9）、Googleは数週間前に公開したクラウド・テキスト音声変換サービスのAPIにメジャーアップデートを行ったことをを発表した。Googleは同時に逆方向のサービスである音声テキスト変換のクラウド音声認識APIにも大きな改善を行った。Googleのテストによれば、新しいAPIは認識エラーを全体で54%減らしたという。ただし一部のケースでは改善はこれをはるかに上回った。

アップデートされた音声テキスト変換APIを利用するとデベロッパーは　複数のユースケースをベースにした機械学習モデルから適したものを選ぶことができる。新APIは現在4つのモデルを提供している。そのひとつは検索と命令のための短い発話だ。また電話の音声認識、ビデオファイルの音声認識も提供されており、Googleがすべてのデベロッパーにデフォールトとして推薦するのが4番めの新しいモデルだ。

こうした新しい音声テキスト変換モデルに加え、Googleはパンクチュエーション（句読法）のモデルをアップデートした。Googleの開発チーム自身も認めているとおり、音声認識でこれまで最大の問題となってきたのは正しいパンクチュエーションの生成だった。ことに話者が通常と異なる発話の癖を持っている場合、パンクチュエーションを含めたテキスト起こしはきわめて困難になる

これはトランプ大統領の発言をパンクチュエーションを含めてテキスト起こししようと試みたデベロッパーなら同意するだろう。アップデートされたモデルははるかに読みやすいテキストを生成できるという。センテンスの切れ目を認識することに失敗するケースが減少し、ピリオド、コンマ、クエスチョンマークなどを正しく挿入できるとGoogleは述べている。

☆出典は：

jp.techcrunch.com

世界の新製品とビジネストレンド情報

広範囲のweb情報を検索し常に新鮮な情報をお届けします。事業の新企画、スタートアップに活用下さい。

Googleのテキスト音声変換APIにメジャー・アップデート――音声認識も改善