Mozilla、多言語"音声"データセットを公開 - 世界の新製品とビジネストレンド情報

機械学習を試すにはビッグデータの存在が欠かせない。Mozillaが展開する音声データセット収集プロジェクト「Common Voice」から42,000貢献者、18言語、約1,400時間の音声データがクリエイティブ・コモンズ・ライセンスのパブリックドメイン「CC0」として公開された。MozillaのWebサイトからダウンロードできる。なお日本語の音声データはまだ無い。

Mozillaのイニシャチブで行われているCommon Voiceは、人々の発する音声を集めるプロジェクト。Webサイト上で言語を選択して、表示される「Speak」ボタンを押し表示されるフレーズを録音することで音声を提供できる。プロジェクトに対応する言語は、すべての言語ではなく日本語はまだ開始されていない。今回、Mozillaはプロジェクトで収集したデータセットをクリエイティブ・コモンズの権利放棄の「CC0」形式で公開したことを発表、その歩みを公式ブログに掲載している。

☆出典は：

news.mynavi.jp