誰でもわかるStable Diffusion　モデルから概念を消す(ESD、LECO)

最近、Stable Diffusionのモデルから特定の概念だけを消す、という面白いテクニックが提唱されたので見てみましょう。

オリジナルはこの論文のようです。論文の中で、このテクニックのことをErased Stable Diffusion(略してESD)と呼んでいます。

まずはESDが何なのかを見てみます。そして、ESDをLoRAによって実装したLECOという追加モデルについても軽く触れます。

なお、この記事を読む前に、「CFGスケール」の解説記事をお読みいただくことを強くお勧めします。CFGスケールについて理解しておくと、この記事もかなり分かりやすくなると思います。

hoshikat.hatenablog.com

Stable Diffusionが絵を描くしくみ
ESDとは
LECOは概念を消し去るLoRA
まとめ

Stable Diffusionが絵を描くしくみ

まず、Stable Diffusionのしくみについておさらいします。

Stable Diffusionは「しくみ」であって、これ自体が膨大な絵の知識を持っているわけではありません。OSの乗っていないパソコンのようなもので、「脳みそ」がないと何もできません。

その「脳みそ」はStable Diffusionでは俗に「モデル」と呼ばれます。モデルを読み込んで初めてStable Diffusionで絵を描けるようになります。

モデルを読み込んで、こちらから何も指示せずに絵を描かせてみると、何かを描いてくれるかもしれませんが、きっと意味の分からない絵になると思います。これを「無題の絵」と呼ぶことにします。

無題の絵では何の役にも立たないので、こんどは「cat」と指示して絵を描かせます。するとネコの絵が描かれるはずです。これを「お題の絵」と呼ぶことにします。「ネコ」という「お題」を出されたので、Stable Diffusionはネコの絵を描いたのです。

さて、Stable Diffusionで「絵を描く」とは、

　⇒　

砂嵐のようなカオスな絵を、人間が「美しい」と思う絵に変えていく作業です。
ちょっとずつ、それぞれのピクセルを変化させて、絵を完成させていくのです。

ここで仮に、この世の画像がすべて「２ピクセル」でできているとします。下の図の黒い２ピクセルを砂嵐の絵、右の灰色の２ピクセルをネコの絵だと思ってください。

Stable Diffusionで「絵を描く」ときは、まず適当に「砂嵐」(左の２ピクセル)を用意します。ちょっとずつピクセルの色を変えていき、最終的にゴールの絵に近づけます。それはあたかも地図上をちょっとずつ進んでいくようなものです。

「ネコの絵」の方向に進んでいくには、ナビゲーションが必要です。このナビゲーションこそユーザーが指定する「お題」、つまり「プロンプト」です。Stable Diffusionのモデルは「ネコ」がどの方向にあるのかだいたい知っているので、「あっちに行けばいいんだな」という感じでネコの絵の方向に近づいていきます。
ナビゲーションがないとどうなるでしょう？Stable Diffusionはとりあえずどこかの方向に進みたがります。しかし、そちらの行き先は「無題の絵」で、ほしい絵とは似ても似つかない絵なので、そっちには絶対に行かないようにしなければなりません。この「無題の絵から遠ざかりつつ、目標の絵にうまく導く」手法を「Classifier Free Guidance」(略してCFG)といいます。

CFGに関しては過去の記事を見ていただくとして、ここで重要なのは「お題が与えられたせいで無題のときと違う方向に向かった」という点です。つまり、「無題」と「お題」の差が現れます。これは重要なので覚えておいてください。