世界の新製品とビジネストレンド情報

広範囲のweb情報を検索し常に新鮮な情報をお届けします。事業の新企画、スタートアップに活用下さい。

Mozilla、多言語"音声"データセットを公開

機械学習を試すにはビッグデータの存在が欠かせない。Mozillaが展開する音声データセット収集プロジェクト「Common Voice」から42,000貢献者、18言語、約1,400時間の音声データがクリエイティブ・コモンズ・ライセンスのパブリックドメイン「CC0」として公開された。MozillaWebサイトからダウンロードできる。なお日本語の音声データはまだ無い。

Mozillaのイニシャチブで行われているCommon Voiceは、人々の発する音声を集めるプロジェクト。Webサイト上で言語を選択して、表示される「Speak」ボタンを押し表示されるフレーズを録音することで音声を提供できる。プロジェクトに対応する言語は、すべての言語ではなく日本語はまだ開始されていない。今回、Mozillaはプロジェクトで収集したデータセットクリエイティブ・コモンズの権利放棄の「CC0」形式で公開したことを発表、その歩みを公式ブログに掲載している。

 

☆出典は:

news.mynavi.jp