画像の信頼性が失われる時が来た？敵対的学習（GAN）の副作用？

韓国で精巧なコラ画像が出回り始めたのが問題になっています。これは人工知能の技術を使って画像を合成することで、実物と判別できないほど精巧なものが作られるようになったことが原因です。

映像の証拠能力が失われてしまっている社会というのはSF作品で描かれていますが、これもフィクションでは無くなりそうです。

敵対的学習（GAN）という手法

判別するための人工知能を作れば、人間には分からないレベルの合成画像も判別できそうですが、それも実は非常に難しいです。最近話題になっている人工知能の学習法に敵対的学習という手法があります。

これは偽のデータを作る人工知能とデータを判別する人工知能を用意し、本物の画像と偽物の画像を判別させる訓練を行うものです。学習用のデータが不足しているケースでも、効率的に学習が行えるとして注目されており、様々なアプローチで研究が進んでいます。

この学習法だと、偽造側は「判別されないように」学習し、判別側は「偽物を見破るように」学習します。理想形に近づくと偽物のデータは殆ど見破れなくなります。

優れた学習法ではあるものの偽物を作るための偽造学習は容易ではなく、基本的には似たような偽データを作り続けて少しずつ完成度を高めていきます。なんでも好きな偽データを作れるようになるわけではありません。

ただ、この学習法で１つの偽データを作る方法を極めた人工知能が作った偽物は非常に完成度が高く、判別側の人工知能でも中々見抜けません。

仮にGANで鍛えられた偽造側の人工知能が作った偽データが世の中に出回ったと仮定しましょう。

この時、GANでは偽データを判別する人工知能も作ります（本来はこっちの学習がメイン）ので、判別するための人工知能を使えば良さそうですが、この判別用人工知能が公開されていない場合は役に立ちません。偽造犯が悪意を持って偽造用の人工知能を作っていた場合、判別用の人工知能は秘匿されているでしょう。

さらに、判別側の人工知能は何十万という偽データから判別法を学習しているにも関わらず、偽造側が作ったデータを完璧に見抜けるわけではありません。つまり、偽装側のデータの精度は相当なものになっているということです。

その上世の中に出回る偽データの数が抑えられてしまうと、偽データの判別法を学習させるためのデータも不足します。すると、偽データを見抜くための学習にGANが使われることにもなりかねません。偽データの偽データを作り、判別する学習を始めるわけです。カオスです。

現時点のデータでは、データの種類によっては人間が見れば偽データは見抜けます。

GANが敵対的学習と言われる所以は二つの人工知能に偽造と判別の役回りを与えて学習させることにありますが、その争いがどんぐりの背比べ状態になっていることも珍しくありません。

レベルの低い争いをいくら繰り返しても人間レベルには達しないわけで、この程度の人工知能ならGANを使っても大した驚異ではないということです。

ただ、それでは人工知能の学習を行う意味がないわけで、研究者たちは日々人間レベルの争いができるように人工知能を強化しています。

どう頑張っても人間レベルにならないデータもある一方で、画像については人間レベルのものが作られるようになってしまいました。

人間と同等の認識能力を人工知能が獲得している背景に「人工知能でも見抜けないデータを作る技術」が隠れているわけで、そんな人工知能が作ったデータを判別するのに人工知能が必ずしも役に立つとは言えないわけです。

近い将来、少なくとも画像を見ただけで「偽物だ」と判別できない時代が来ます。となると、その画像が偽物である証拠を別に用意する必要があるわけです。フェイクニュース全盛の今、真贋を見抜く能力は今まで以上に問われそうです。