誰でもわかるStable Diffusion　その11：VAE - 人工知能と親しくなるブログ

前回の記事まではStable Diffustionの心臓部であるU-Netについて解説してきました。

ただのノイズから画像を作りだしていくのはU-Netの役割ですが、これだけでは画像は完成しません。

なぜならU-Netが作り出すものは「圧縮された画像」だからです。

絵を完成させるためにはこの圧縮された画像を展開して、元のサイズに戻す必要があります。

この、絵を圧縮したり展開したりする機能を「Variational Autoencoder」(ヴァリエーショナル・オートエンコーダー)、略して「VAE」と言います。

Stable Diffusionのしくみを語るとき、U-NetやTransformerに目が行きがち(Lora、Dreamboothなどの追加学習がU-Net対象なせいもあるでしょう)で、Stable DiffusionのVAEの機能は見落とされがちですが、それでも非常に重要なモジュールです。

今回はこのVAEについて見ていきます。

VAEとは
VAEの進化
Stable DiffusionのVAEの特徴
Stable Diffusionの潜在空間ってどうなってるの
VAEエンコーダーは画像生成には不要
VAEデコーダーのしくみ
まとめ

VAEとは

私たちがふだん目にする画像は「ピクセル」で描かれた「ピクセル画像」です。

Stable Diffusionで作りたい画像も「ピクセル画像」です。

しかし、ピクセル画像は解像度が上がるたびにデータ量がどんどん膨大になり、大規模なマシンがないと計算できなくなってしまいます。

そこでStable Diffusionは画像を圧縮した状態でデータを作り、最後にVAEで展開してピクセル画像に変換して出力しています。

圧縮された画像のタテヨコのサイズはそれぞれ8分の1になります。

(ただし画像の場合はR、G、Bの3つのチャンネルを持っていますが、圧縮状態の画像はチャンネルが4つに増えます。)

圧縮前の画像と圧縮後のデータを比べると、データ量は48分の1になっています。

例えば512x512x3ピクセルの画像(最後の3はRGBチャンネル)を作りたい場合、生成される圧縮データのサイズは64x64x4です。

下の図はVAEの構造です。

VAEは「エンコーダー」と「デコーダー」からなっています。

エンコーダーは画像を圧縮、デコーダーは画像を展開します。

圧縮された画像は小さくなり、「Latent Space」(レイテント・スペース)、いわゆる「潜在空間」と呼ばれる情報空間に置かれます。

デコーダーは「潜在空間」にある画像を取り出して展開し、ピクセル画像に戻します。

VAEが作り出せるありとあらゆる画像データはこの「潜在空間」が保持しているわけです。

もともとVAEはStable Diffusionとはまったく別に提案された画像生成モデルです。

ここで、Stable Diffusionの構造を見てみましょう。

VAEの構造とよく似ていることがわかります。違うのは「潜在空間」の部分にU-Netが挿入されているところです。

つまり「Stable DiffusionはVAEの一種とみることもできる」のです。

U-Netは「潜在空間」で画像を作り出しますが、VAE的に解釈すると、U-Netは「潜在空間の中を泳ぎ回ってふさわしい絵を探し出す」という作業をやっていることになります*1。

VAEの進化

VAEは数年で何度も改良を重ねてきました。

画像を生成する技術として、まず「Autoencoder」(オートエンコーダー)というものが提案されました。これを発展させたものがVAEです。

さらにVAEを発展させたもののとして、Vector Quantized VAE、略して「VQ-VAE」が提案されました。

さらにさらに、QV-VAEを発展させたものとして「VQ-GAN」と呼ばれるものが登場しました*2。

VQ-GANは「VAE」という単語が抜け落ちていますが、VAEの一種です(正確にはVQ-VAE + GANです)。

Stable Diffusionで一般にVAEと呼ばれているものは、この「VQ-GAN」のことです。

これらすべて、「画像を圧縮、展開する」ことに関しては同じですが、画像の情報をどう保持するか、画像をどう復元、生成するか、という手法が違っています。

詳細は省きますが、VQ-GANはより精細な画像を生成できるとされています。

VAEは上の図のように機能が置き換わったり追加されたりする形で進化してきましたが、VQ-GANではU-Netでも使われているTransformerという仕組みが追加されたり、GANという画像生成メカニズムが追加されたり、まさに「いいところどり」な形態です。

これらの機能はVAEが学習して賢くなる時に特に大きな威力を発揮します。次のセクションではそれらについて概要だけ解説しますが、Stable Diffusionで画像を生成するだけならあまり意識する必要がないので、興味がなければ読み飛ばしてください。

Stable DiffusionのVAEの特徴

VAE(正確にはVQ-GAN)がどういうしくみなのか、具体的な特徴を見てみましょう。

ここで説明していることは主にVAEが画像を学習するプロセスです。興味ない方は読み飛ばしてもらっても構いません。

VAEは異次元世界への扉

絵をVAEエンコーダーに入れるとデータが小さくなりますが、この時、画像は「潜在空間」という異次元世界に飛ばされたと考えることができます。

画像は潜在空間に入ると、まず細切れに切り分けられます。そしてそれぞれの細切れが、それぞれ別の場所に置かれます。例えば、ある細切れが置かれた場所を住所で表すと「1丁目1番地１」だとします。少し短く書くと、[1, 1, 1]となります。

この「潜在空間の住所」こそが「圧縮されたデータ」です。もし細切れひとつが8x8ピクセルだったとする(簡単のため色はグレーのみとします)と、8x8＝64個のデータが3個のデータに圧縮されたことになります。

画像を展開するときは、「潜在空間」の「1丁目1番地1」にある画像を現実世界に持ってくればよいのです。VAEデコーダーがその役割を担います。

潜在空間は区画整備されている

VAEエンコーダーを通して「潜在空間」に絵を入れたとき、絵の細切れを適当にバラまいてしまったら空間内がゴチャゴチャになってしまいます。「潜在空間」は無限に広がる膨大な空間ですが、だからといって絵の細切れを適当に放り投げて適当に住所を割り振っていくのは賢い方法とは言えません。

ちなみにVAEの先祖にあたるAutoencoderは実際そんな感じで適当に絵を潜在空間に突っ込んでいました。)

絵を機能的な形で潜在空間に置くために、以下のような整備計画を立てます。

同じような特徴を持つ細切れは近い場所に置いて、特徴ごとにまとまるようにする。
デタラメに住所の数字を発行せず、有効な数字をあらかじめ決めておいて、その住所しか使えないようにする。
似たような細切れは1つにまとめる

これらに従って転送されてきた細切れを整理していくと、潜在空間内もスッキリして、のちにここから絵を復元するときに効率よく復元できるようになります。

3つ目の項目に注目してください。もし入ってきた細切れがすでに存在する細切れに似ている場合、すでに存在する細切れで代用します。

代用なので、オリジナルとは違うものになります。しかし、汎用性を上げる(いろいろな絵を効率的に保持できるようにする)ために、ある程度のロスは許容します。

「贋作師」と「鑑定士」が腕を競い合う

さて、潜在空間に入ってきた絵は細切れにされますが、細切れをつなぎ合わせれば理屈としては再び絵になるはずです。しかし、上で書いた通り、細切れの情報はオリジナルとは違っています。オリジナルとは違うものをつなぎ合わせて作る絵は、いわば「贋作」(ニセモノ)です。

元の絵を作る時はこれらの細切れを「現実世界の絵」に修復して、絵にします。

こうした、いわば「贋作師」の仕事をするのがVAEデコーダーです。

一方、現実世界(つまりVAEデコーダーの処理後)に「鑑定士」(Discriminatorと呼ばれます)を配置しておきます。この「鑑定士」は送られてきた絵が本物かニセモノかを細切れごとに鑑定し、「本物」「ニセモノ」のラベルをつけていきます。

学習の最初のうちは「贋作師」は未熟なので、「鑑定士」にすべて「ニセモノ」と見破られてしまうでしょう。「贋作師」はこの結果をもとに少し学習します。すると、次に作った絵は少しだけ「鑑定士」をだませるかもしれません。「贋作師」はさらに学習して腕を上げようとします。「鑑定士」のほうも負けじと少し学習してニセモノを見破る技術を上げます。

こうして「贋作師」と「鑑定士」が競い合うようにして腕を上げていき、ついには「贋作師」(つまりVAEデコーダー)が本物と見分けがつかないような絵を作り出せるようになります。

この贋作師と鑑定士が競い合って生成画像のクオリティを上げていく方法を「GAN」(Generative Adversarial Network、ギャンと発音されることが多いです)といいます*3。