世界の新製品とビジネストレンド情報

広範囲のweb情報を検索し常に新鮮な情報をお届けします。事業の新企画、スタートアップに活用下さい。

マイクロソフト、自然なテキスト読み上げを実現するAI研究を発表。音声サンプルはわずか200

マイクロソフトの研究者チームは、わずかな音声サンプルから自然なテキスト読み上げを実現するAIシステムを開発したことを発表しました。この研究成果をまとめた論文は今年後半に米カリフォルニア州ロングビーチで開催される国際機械学習会議で発表する見通しで、今後数週間のうちにソースコードも公表するとのことです。

テキストから音声への変換機能は日進月歩で改良されていますが、自然な音声出力を生成するためには、今なお多くのトレーニング時間と音声サンプルが必要です。そうしたデータを集めるには多大な労力とコストがかかり、ハイテク大手以外の研究者が参入する上で壁となっています。

マイクロソフトの研究者チームは、そうしたネックを解消するAIシステム研究「Almost Unsupervised Text to Speech and Automatic Speech Recognition(ほぼ教師なしのテキスト読み上げと自動音声認識)」を発表しています。

このAIシステムは、99.84%もの単語理解精度を達成。その賢さもさることながら、注目すべきはたった200本、総時間にして約20分の音声サンプルとテキスト書き起こししか使用していない点です。

本システムの鍵となっているのは、GoogleのAI研究部門「Google Brain」が2017年に発表した新たなニューラルアーキテクチャ「Transformer」です。このアーキテクチャはあらゆる入力と出力の"信号"を脳神経のシナプス強度(情報の伝わりやすさ)のようにその場で重みづけし、長いシーケンスであれ非常に効率的に処理できるもの。

研究チームは、音声またはテキストを入力や出力として受け取れるTransformerを本AIシステムに組み込み、ノイズ除去自動エンコーダを併用して、効率のいい学習を実現したとのこと。手身近にいえば、人間の脳が書いた文章を理解した上でしゃべる働きを真似たものといえそうです。

現時点で公開されている音声は、人間のような自然さを備えながらも、少し機械音声の固さが残っている感はあります。が、音声サンプルの少なさを考えれば、悪くない結果とは言えそうです。

 

☆出典は:

japanese.engadget.com