「声」から話者の顔画像を生成するAIが開発される
話している人の「声」だけでも、性別・年齢や、ときには出身地などの情報が判別できます。「Speech2Face」は人の声と話し方から話者の顔を予想して画像を生成するというAIで、音声から人の身体的特徴を導き出すために開発されています。
Speech2Face: Learning the Face Behind a Voice
https://speech2face.github.io/
[1905.09773] Speech2Face: Learning the Face Behind a Voice
(PDF)https://arxiv.org/pdf/1905.09773.pdf
AI Listened to People's Voices. Then It Generated Their Faces.
https://www.livescience.com/65689-ai-human-voice-face.html
Speech2FaceはYouTubeに投稿されたムービーから話者の「年齢」「性別」「人種」「話し方」と「声」の関係性についての機械学習を行って、声から話者の顔の画像を予想して生成するというものです。学習に使用されたムービーは何百万にものぼり、Speech2Faceは10万人以上の声と顔を学習したそうです。
Speech2Faceが実際に声から生成した「顔の画像」がこれ。左側の列の写真はオリジナルの顔、真ん中の列は顔を正面に向けメガネなどを外すようにオリジナルの画像を加工したもの、右側の列がSpeech2Faceが声から生成した顔の写真です。実際の顔とSpeech2Faceによる顔では細かい造形は異なりますが、人種・性別・年齢などは合致しているように見えます。なお、Speech2Faceが生み出す顔画像はすべて無表情になります。
☆出典は: