テーマ : 読み応えあり

【ボイスクローニング】数秒で声複製、犯罪に警戒 技術発達、防止研究進む

 生成AI(人工知能)で声を複製する「ボイスクローニング」の技術が急速に発達している。かつては複製に数十秒分の声のデータが必要だったが、現在は数秒分で可能になったとされる。医療分野などで活用が期待できる一方、詐欺などの犯罪に悪用される懸念も。警戒が高まる中、被害を防止しようとボイスクローニングを検知する研究も進んでいる。

マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市
マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市
マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市
マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市
マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市
マイクに声を吹き込む電気通信大の中鹿亘准教授=1月、東京都調布市

 ▽誰でも簡単に
 「いい天気ですね」。東京都調布市の電気通信大の研究室で1月下旬、中鹿亘准教授(音声工学)がマイクに吹き込むと、取材した記者に似た声がスピーカーから再生された。使用したのは約8年前に中鹿准教授が開発したソフトウエアで、事前に学習させていた2人の30秒分の声をAIが分析し変換したという。
 中鹿准教授ら複数の専門家によると、近年は技術革新でサーバーが一度に大量の情報を処理できるようになり、数秒分の声でボイスクローニングが可能になったという。動画配信サイトなどで音声コンテンツが急増し、学習元のデータ量が増えたことも開発の後押しとなっている。
 患者が病気の手術で失ってしまった声を再現するサービスも生まれているといい、中鹿准教授は「ここ数年で業界は急激に変化した。インターネットで無料公開されているソフトもあり、誰でも簡単にボイスクローニングができる時代になった」と語る。
 ▽ガードレール
 ただ、生成AIを巡っては悪用への警戒も高まっている。政府は昨年5月、対話型AI「チャットGPT」の急速な普及などを受け、利活用のルール作りを議論する「AI戦略会議」を設置。その中で、開発や利用を促進するためにも「生成AIに関する懸念やリスクへの適切な対処、いわば『ガードレール』の設置が必要」とした。
 犯罪との関係にも触れ、生成AIによる画像や音声が特殊詐欺に利用されるなど「従来の犯罪がより巧妙かつ容易になるリスクがある」と指摘。刑法など現行の法制度やガイドラインで不足する場合は、海外の対処方法も参考に対応を検討すべきだとした。
 また、生成AIで本物と見分けがつかない情報を誰でも作れるようになったとして、詐欺などに利用されないよう、生成AIの制御方法のほか、生成コンテンツか否かを判定するソフト、それらが流通しない仕組みの開発や普及を奨励することが望ましいとしている。
 ▽検知
 ボイスクローニングの検知について研究する国立情報学研究所の山岸順一教授(言語メディア)は「生成AIによる偽動画を識別する研究は盛んに行われているが、ボイスクローニングを検知する研究は後手に回っている」と危機感を示す。
 山岸教授らの研究グループは音声の波形を分析することで、ボイスクローニングで生成されたものか識別することを目指している。話者が多く蓄積データが豊富な英語で、かつ雑音が少なく音声データを抽出しやすい環境であれば、9割以上の確率で検知が可能になったという。
 ただ、雑音が多いと検知の精度は低いとして「ボイスクローニングは想定よりも早く発達しており、実用化に向け研究を急がなければならない」と強調。「現時点で詐欺などの被害に遭わないためには、声が入った動画などを安易にネットに投稿する行為は控えるなど、注意を払う必要がある」と話した。

いい茶0

読み応えありの記事一覧

他の追っかけを読む
地域再生大賞