モナリザがラップ!? →マイクロソフトのAI「VASA-1」のデモ動画です

モナ・リザがラップする動画が海外のSNSでちょっとした話題となっています。

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) April 18, 2024

https://twitter.com/minchoi/status/1780792793079632130

こちらのモナ・リザがラップする動画は、マイクロソフトのAI（人工知能）モデル「VASA-1」のデモとして公開されたものです。VASA-1は顔画像と音声ファイルだけでリアルな動画を生成することができるAIモデルです。

Anne Hathaway’s Lil’ Wayne Style Paparazzi Rap | CONAN on TBS（YouTube）
https://youtu.be/uKvQvWTZFWg?si=VYPLLGO3d-_Vkmyt&t=21

モナ・リザのラップ動画の元ネタは、俳優のアン・ハサウェイさんが10年以上前にトーク番組で披露した即興ラップです。

他にも多くのデモ動画が下記リンクで公開されています。

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
https://www.microsoft.com/en-us/research/project/vasa-1/[リンク]

9. Out-of-distribution generalization – singing audios pic.twitter.com/D5HhBpirWh

— Min Choi (@minchoi) April 18, 2024

https://twitter.com/minchoi/status/1780792807352856871

ラップだけでなく普通に歌うことも可能です。

7. Power of disentanglement

Example of same motion sequence with different photos pic.twitter.com/MSLFobwJTx

— Min Choi (@minchoi) April 18, 2024

https://twitter.com/minchoi/status/1780792803766734961

複数の異なる顔画像（表情は同一）と音声ファイルを使用した比較動画です。人種が異なる女性たちが全く同じ台詞を話しています。

ディープフェイクへの懸念からか、マイクロソフトはAIモデルが適切な規制に従って使用されることが確実になるまで「（VASA-1の）オンラインデモの公開や製品のリリース予定はない」としています。

※画像：Xより引用
https://twitter.com/minchoi/status/1780792793079632130