スタジオ真榊

【全体公開】今から追いつく！AIイラスト超入門 (Pixiv Fanbox)

Published:

2023-03-09 11:42:52

Edited:

2024-02-01 01:26:12

Imported:

Content

こちらの記事は2023年3月9日に投稿された旧バージョンです。特段の理由がなければ、最新事情を盛り込んだ「AIイラストが理解る！StableDiffusion超入門」をご覧ください。

【全体公開】AIイラストが理解る！StableDiffusion超入門

こんにちは！2022年10月からAIイラストの技術解説記事を連載してます、サークル「スタジオ真榊」の賢木イオです。この記事は、これまで投稿してきた100本（約40万文字）を超えるAIイラスト術のFANBOX記事をもとに、画像生成AIを最短距離で学ぶための必要情報をまとめたメインコンテンツです。画像生成AIにもいろいろあり...

こんばんは、スタジオ真榊です。このところ、ツイッター経由で公式サイトやこちらのFANBOXへのアクセスが急増しており、これからAIイラストを始めたいという方からのグラフィックボードや導入方法についての質問をお受けすることが増えてきました。そこで今夜は、これまでのFANBOX記事を振り返りつつ、画像生成AIを今から最短距離で学ぶための記事を全体公開で書いてみたいと思います。

(frame embed)

このFANBOXもほとんど毎日更新といった趣でStableDiffusionWebUI絡みの進化を追っているのですが、既に過去記事もかなりの量となり、どれから読んだらいいのかも分かりにくくなりつつあります。素敵なイラストを思い通りに生成するために覚えるべきことを紹介しつつ、参照すべき過去記事とセットで解説していければと思います。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

画像生成AIの仕組みをざっくり解説

まず最初に、画像生成AIがどうやってイラストを出力しているのかについて簡単に解説します。

画像生成AIは、教師データとなる多数の画像から「深層学習」することで、それに基づいた新しい画像をノイズから生成することができるAIです。この記事で紹介する「StableDiffusion（SD）」は、text-to-image（＝文章to画像）モデルと呼ばれる画像生成AIの一種。「プロンプト」と呼ばれる呪文を入力することで、それに対応した画像を描くことができることは、多くの方が既に知っていることと思います。AIはウェブ上から収集された画像とテキストのペアである「データセット」から学習しており、例えば「1girl,sky,smile」と打ち込まれたら、このように笑顔の少女と空が描かれたイラストを生成します。

なぜそんなことができるのか。画像生成AIは「元画像にノイズを加えたものからノイズを取り除く訓練」を積んでいます。その訓練をひたすら繰り返していくうち、AIは全く無意味なノイズからでも、テキスト指示に従って「存在しない元画像」を推測できるようになるわけです。よくある誤解として、「AIは絵師のイラストを切り貼りしてコラージュしている」というものがありますが、教師データであるイラストそのものはAIの中には記憶されていません（もし何十億枚という教師データを全て記憶しているなら、学習済みモデルが数GBで済むはずがありませんよね）。AIは学習した画像そのものではなく、それらを教師として学んだ「特徴・傾向」に従ってイラストを生成しているのです。

画像生成は「ステップ」と呼ばれる段階を踏んで行われます。無意味なノイズから「存在しない元画像」を推測する過程を１ステップ、２ステップと繰り返すことで、より鮮明・高画質なイラストができあがっていくわけです。さきほどのイラストの生成過程を見てみますと…

AIくんは最初、まったく無意味なノイズ画像を渡されて「これは空と笑顔の女の子の画像だよ、ノイズを取り除いてごらん」と言われます（Step0）。健気なAIくんは教師データから学んだ傾向に従って、なんとなくそれらしい感じにノイズを取り除きます（Step1）

その画像が再度AIに渡されて、ノイズを同じように取り除くと、だんだんと空や人間らしきものが浮かび上がってきます。何度もこの工程（ステップ）が繰り返される中で、AIくんは右側になんとなく「白いマントを着た1girl」を見出したあと、それをさらに元画像としてノイズ除去していくうちに、マントの中に白い髪の女の子を見出して、その方向でブラッシュアップが進んでいったことが画像からわかると思います。

このように、画像生成AIは「空と白い髪の女の子」のイラストを学習データから検索して、それを基に「コラージュ」しているわけではないのです。

(frame embed)

もっと詳しい仕組みが知りたい方はこちらのツイートが非常に分かりやすいのでオススメ。ただ、AIは「元画像からのコラージュ」に近い行為をすることもできます。それは「text2image」ではなく「image2image」と呼ばれる別の仕組み。それについては後述します。

「StableDiffusionWebUI」とは

さて、我々ユーザーがStableDiffusionを使う方法は、大きく分けて次の3つがあります。

①自分のパソコンにツールをインストールして使う（ローカル生成）

②Stable Diffusionを採用したアプリを使う（AIピカソなど）

③クラウド環境にツールをインストールして使う（Paperspaceなどのサービスを利用）

①は電気代以外は無料で利用できるため、自宅PCで好みのイラストを無限に生成できる代わりに、ある程度のマシンスペックが要求されます。②、③は利用料金が掛かる代わりに、自分のPC環境に左右されずに使えるのがメリット。StableDiffusion以外にも、「NovelAI」や「HolaraAI」といった有償の画像生成サービスが人気を集めています。

この記事ではこのうち①を紹介するわけですが、StableDiffusionをローカル環境で使うための代表的ツールが、AUTOMATIC1111氏が配布されている「StableDiffusionWebUI」（以下SDWebUI）です。多くのローカル勢がこちらのツールを使ってAIイラスト生成を行っており、AIイラスト生成技術の革新である「Controlnet」を始めとした拡張機能や、クォリティの高い新たな学習モデルが日々公開され続けています。

失敗しない！StableDiffusionWebUIを誰でもインストールできる方法

こんばんは、スタジオ真榊です。今回は、初心者向けに改めてStableDiffusionWebUI（以下SDwebUI）をインストールする方法をコンパクトにまとめたHowto記事です。 AIイラストの初心者向け解説については「今から追いつく！AIイラスト超入門」に詳しくまとめてありますが、今回の記事はそちらでは省略した「SDwebUIを実際...

簡単な導入方法はこちらの「失敗しない！StableDiffusionWebUIを誰でもインストールできる方法」にまとめましたので、こちらをご参考に。また、公式サイトの「【StableDiffusion導入解説】NovelAI中級者がローカル環境を導入したら別世界に突入した件」も参考になると思います。

(frame embed)

必要なマシンスペック

SDWebUIを使うためには、NVIDIA製「GeForce RTX20」シリーズ以降のグラフィックボードが搭載されたPCが必要です。搭載VRAM（ビデオメモリ）の容量は最低8GB、できれば12GB以上のものがないと、GPUに負担のかかる高画質な画像生成や複数同時生成が難しくなります。とはいえ、基本的なイラスト生成だけを楽しむならVRAM8GBでも問題ありません。

こちらはツイッター上で実施された、AI術師の利用しているグラボのアンケート結果です。

(frame embed)

一番のボリューム層が、スタジオ真榊でも利用している「RTX3060（12GB）」。

RTX3060にはVRAM8GBモデルもあるのですが、もし購入するのであれば12GBモデルを強くオススメします。高価なグラフィックボードほど、1枚の画像生成に掛かる時間が短縮され、高解像度なイラストの複数同時生成も可能になりますが、GPUの性能が低いと、生成途中にVRAMが圧迫され、しばしばエラーが発生してしまいます。

また、低スペックのグラボでは生成結果も異なるとの報告が上がっています。ただ、FANBOXではVRAM4GBでもちゃんと動いているとの情報も寄せられていますし、賢木が以前使っていたGTX1060でも時間は掛かるもののちゃんと画像生成できたので、いきなりグラボを買う前にまずは試してみるのがいいかもしれません。

5万円のRTX3060を買ったら作業効率が天翔龍閃した件

グラフィックボードによる使用感の違いは「5万円のRTX3060を買ったら作業効率が天翔龍閃した件」をご参照ください。旧世代の「GTX1060」とRTX3060の生成速度の違いが動画で掲載してあります。

また、画像生成だけでなく「追加学習」を行う場合は12GB以上、24GBモデルがなお欲しくなってきます。AIが学習していない画像を自分で学習させるのが「追加学習」。見本となる画像を数十枚～数百枚学習させ、テキストとペアにすることで、特定のキャラを再現できるようにしたり、イラストのタッチやポーズなどを意図した通りに再現できるようになります。最近は「LoRA」と呼ばれる仕組みの追加学習とその学習モデル配布が盛んに行われており、自分で学習させなくても、他のユーザーが作ったモデルをダウンロードして使用することができます。（先日紹介した線画化や線画着色もLoRAを使ったテクニックです）

【参照】

→AIでカラーイラストから線画を抜き出してみよう！

→AIを使って「線画に色塗り」をしてもらおう！

昨年、自分の画風をAIに覚えさせてアイコンを作れる「mimic」というサービスが話題になりましたが、LoRAを使えば「自分の画風」をAIに追加学習させることも可能です。線画LoRAと組み合わせて、自分のタッチで線画を出力したり、それに自分風の塗りで着色したりすることも可能になってきます。

術師グラボTier表によると、RTX3060の次のボリュームゾーンはRTX3090、その次がRTX4090です。あるサイトでそれぞれの画像生成速度を比べたところ、RTX3060に比べ、3090は約2倍、4090は約4倍の速さで同じ画像を生成できたという調査結果が出たそうです。3090はおおむね25万円前後から、4090は28万円前後から…。既に高性能ゲーミングPCをお持ちの方以外、なかなかいきなりこの世界に飛び込める人は少ないと思いますが、富裕層・好事家の方はぜひ挑戦してみてください。

CPU/HDDはどうしたらいい？

WebUIにおける画像生成は基本的にはGPU依存なので、よほど古いCPUを積んでいなければ大丈夫と言われています。ある程度生成速度には差が出るようですが、GPUほど明確な差は出ません。

HDD容量については、あればあっただけ良いとしか言えることはありません。学習モデルは一つあたり4~8GBほどありますし、外出中にも高解像度の画像をバカスカ無限生成していくとなると、100GBは開けておきたいところです。

ちなみに現在賢木のSSD内に保存されているSDwebUIのフォルダサイズは52.8GBありました。生成した画像は別ドライブに保存しているので、SDwebUIを動かすのに必要なデータや各種学習モデル、LoRAなどの追加学習関連ファイルだけでこのサイズです。ご参考まで。

画像生成に必要な基礎知識

さて、PC環境が整い、無事SDWebUIをインストールできたら、さっそく画像を生成していくことになります。こちらがWebUIの操作画面。

初めてだと何がなんだかわからないと思いますので、こちらに画像の説明文を作りました。拡大してご覧ください。画像内の数字は、下記の項目ごとの数字に対応しています。

①学習モデル

SDwebUIは単体では画像生成ができず、大量の画像とテキストのペアから学習した学習モデルと組み合わせる必要があります。学習モデルには例えば実写のようなフォトリアルな画像に特化したものや、アニメ調のイラストが得意なモデル、緻密で美しい風景の再現が得意なモデルなど、学習させたデータセットによりさまざまな特徴があります。

つまり、どんな学習モデルを使うかによって、その術師の生成するイラストは大きく変わることになります。学習モデルは拡張子「.ckpt」または「.safetensor」で、一つあたり4〜8GBの前後の容量があります。拡張子によって生成結果に変化はありませんが、safetensorsはckptにあった問題点を改善したものとされており、両方あったらとりあえずこちらを選べばOK。そのため、最近はckpt形式の学習モデル配布は減りつつあります。

学習モデルは既存のものを融合させて好みのものを作り出すことができるため（マージと言います）、日々無数のモデルがウェブ上に投稿され、共有されています。学習モデルによってライセンス表記があり、「生成画像の商用利用禁止」などのルールが定められているので、必ずチェックした上で使用する癖をつけましょう。

【注意喚起】使用モデルのライセンスを再確認しよう！

こんばんは、スタジオ真榊です。今日は学習モデルのライセンスをめぐって界隈がちょっとざわついた件をめぐる、「もう一回自分の使っているモデルのライセンスを確かめてみよう！」という注意喚起系の記事です。このたび「ChilloutMIX」というフォトリアル系の人気モデルのライセンス表記が急に変更となったのですが、...

②VAE

「Variational Autoencoder」の略。何をする機能か非常に説明しづらく、私含め多くの術師は何がなんだか理解していないと思われるもの。「これを変更するとイラストの色合いが変わる」くらいに理解しておけばOKだと思います。学習モデルごとに対応するVAEが配布されていることもありますが、賢木はずっと同じVAEを使ってます。それでいいのだ。

③プロンプトとネガティブプロンプト

プロンプトとネガティブプロンプトは、Text2image（文章から画像生成）における最も重要な要素。AIはプロンプト欄に書かれた呪文を基に画像を生成します。「1girl,smile,sky,school uniform,peace sign,looking at viewer」などと、基本的にはカンマ「,」で区切って、盛り込みたい要素を箇条書きで並べていくだけでOKです。「被写体は何人でどんな構図か、どんな見た目の誰がどこで何をしているか、どんな画風か」を指定するのがコツ。正しい「呪文」でないと認識しないわけではなく、DeepL翻訳でざっくり英文化して放り込んでもたいてい理解してくれます。

「何を生成するか」を指示するプロンプトに対し、「何を生成しないか」を入力する欄であるネガティブプロンプトも同じくらい重要です。「金髪はだめ」「男は描くな」と指示するだけでなく、「低品質な画像はダメ」と指示すると高品質になるので、この２つがうまく釣り合うことで素敵なイラストが生成できるようになります。

ローカル生成におけるプロンプト・ネガティブプロンプトについては「プロンプト辞典」（上画像▲）に詳しくまとめているので、まずはこちらをご参照ください。FANBOX支援者以外の方向けに、公式サイトにも無料版が掲載されています。また、chichipuiなどのAIイラスト投稿サイトでは、先輩術師さんのプロンプトがイラストと一緒に公開されていますので、大変参考になります。

現在は学習モデルや生成環境の多様化が進み、Controlnetを始めとしたさまざまな手法も登場したため、プロンプトは以前ほど大きな存在ではなくなってきています。それでも、やはりどんなイラストが生成されるかはプロンプトが大きく左右するもの。まずはいろんなプロンプトを試して、text2imageに習熟するのがAIイラスト上達の道だと言えるでしょう。

ちなみに、AIを使う人が「術師」と呼ばれるのは、呪文のようなプロンプトを駆使して画像生成するから。「AI絵師」と呼ぶ人もいますが、この表現は努力して手描きイラストのスキルを積んできたクリエイターの気分を害することがあり、自称する人はどんどん減っています。

④ステップとスケール

ステップは AI がノイズを取り除く作業の反復回数のこと。先程「青空と少女」のイラストで実験したとおり、ステップ１だと、まだ意味のないノイズからさほど離れることができず、ぼんやりした雲のようなものが生成されます。ステップ数が多いほど絵のクオリティが上がる反面、生成に時間がかかります。適正なステップ数は使用する学習モデルにもよりますが、「テスト生成は12以上、本番生成なら20以上推奨」が目安。

スケールは直感的にわかりにくいですが、「プロンプトの再現度」に近い概念です。低スケールだと柔らかい絵画風になり、高スケールにするほどディティールが細かく描写され、AIがより厳密にプロンプト（ユーザーの指示）を再現しようとします。学習モデルごとにおすすめのスケール値が案内されていることが多いので、それを参考にして好みに調整してみましょう。

こちらは「青空と少女」のスケールを1、3、5、7…と変化させたもの。「低すぎるとぼんやり、高すぎるとパキっと＆崩壊」という雰囲気が伝わると思います。こういう比較実験画像は「X/Y/Zプロット」という機能で簡単に作ることができます。こちらの記事で詳しく解説しています。

X/Y/Z plotで初めてのモデルと仲良くなろう！

⑤サンプリングアルゴリズム（サンプラー）

AIがノイズ処理する際のアルゴリズムのこと。Euler a, Euler, LMS, Heun, DPM2, DPM2…といろんな種類があり、同じ学習モデル・SEEDでもサンプラーを変えると雰囲気がだいぶ変わります。人気なのは比較的軽めでクォリティーも高い「DPM++ 2M Karras」。これも、学習モデル配布時におすすめのサンプラーが案内されていることが多いです。

こちらは同じ条件でサンプラーだけ変えた「青空と少女」のイラスト。同じプロンプト・設定でも、サンプラーによって全然違う画作りになることが分かると思います。

⑥SEED値

乱数を作成するときの最初の設定値のことをシード（種）値と言います。画像生成AIにおいては、生成画像ごとに割り当てられている固有の背番号のようなものと考えてみてください。全く同じプロンプト指示をしても、このSEED値が異なると違うイラストが生成されますし、同じSEED値を指示すると、プロンプトが多少変わっても似たイラストになります。以前生成したイラストと全く同じものを生成するためには、このSEED値が不可欠になります。

生成するたびに同じイラストが作られてしまうと困るので、普通はseed値を固定したくありませんよね。seed値を毎回ランダムにするためには「-1」と入力するか、欄の横のサイコロボタンを押せばOK。おおむね好みのイラストができたけれども、ちょっと変えたいとか、クォリティをアップしたいときに、このseed値が役に立つことになります。

「外出中に無数のエッチ画像を作るよう指示したはずなのに、最後に生成したイラストのseed値が入力されたままになっていて、帰ってきたら数千枚の全く同じエッチ画像がフォルダを埋め尽くしていた…」というのが術師あるあるです。

インストール後にやるべきこと

日本語化やxformersによる高速化など、インストール前後にやっておくべきことは基本的にこちらの記事に書いてありますので、まずはこちらをご参考に。

失敗しない！StableDiffusionWebUIを誰でもインストールできる方法

テスト生成が無事できるようになったら、「設定」タブから以下のように設定を変更することをおすすめします。

・「保存する場所」で画像の保存先を決める。デフォルトは「Output」フォルダだが、Cドライブに余裕がなければ別のドライブに変えてもよい。

・「フォルダについて」で、保存先にサブフォルダを作るか決める。「サブフォルダに保存する」を選ぶと生成日ごとにフォルダ分けできる。

・「UI設定」内の「テキストからUIに生成パラメータを読み込む場合(PNG情報または貼り付けられたテキストから)、選択されたモデル/チェックポイントは変更しない」欄にチェックを入れる。入れないと不意に面倒な学習モデルの再読み込みが起きるので、とりあえず最初に入れておく。

・「UI設定」内の「クイック設定」欄に「sd_model_checkpoint,sd_vae,CLIP_stop_at_last_layers」と入力。こうすると、先程の解説画像のようにVAEやClipSkipを表示する欄が画面上部に表示される（再読み込みが必要）

・画面上部のプルダウンメニューからVAEを変更する。インストール解説とは異なりますが、個人的にはwaifu-diffusion-v1-4のVAE「kl-f8-anime2.ckpt」が彩り豊かでおすすめ。保存先は「（SDwebUIのインストールフォルダ）\models\VAE」です。下図は左がorangemixシリーズの純正vae、右がkl-f8-anime2.ckpt。右の方が彩りがはっきりしているのが分かります。

学習モデルはどこで入手する？

さて、ここまでがStableDiffusionで画像生成するための基礎知識です。インストールがうまくいき、プロンプトやスケール値がどんなものか理解できれば、少なくとも「1girl,smile,sky」というプロンプトでイラスト生成することまではできるようになっているはずです。では、イラスト生成のクォリティに直結する学習モデルやVAEは、みなさんどこで入手しているのでしょうか。

(frame embed)

「HuggingFace」は学習済みの機械学習モデルやデータセットなどを公開している米国発のプラットフォーム。WarriorMama777氏が配布されている人気学習モデルであるOrangeMixシリーズもここでダウンロードすることができます。下記のCIVITAIに比べてより技術者寄りで、アップデートや技術討論などが盛んに行われています。WebUI用の拡張機能などはこちらで配布されることが多いです。

(frame embed)

「CIVITAI」はStable Diffusionのモデルをアップロードできる海外プラットフォーム。こちらはHuggingFaceに比べてより一般ユーザー寄りで、多くのユーザーが学習モデルのほか、「LoRA」や「Textual Invarsion」と呼ばれる追加学習モデルなどを公開しています。無修正の18禁画像などもバンバン出てくるアングラムード漂うサイトなので、自己責任でご利用ください。最近はアクセスが急増しているためか、接続が不安定になることが多いです。

注意すべきこと：NovelAIリーク問題

ここで一つ、AI術師として経緯を把握しておくべき事件があります。2022年10月、ブラウザ上でアニメ調のAIイラスト生成が楽しめる有償サービス「NovelAI」のモデルが何者かにハッキングされ、ウェブ上に流出する事件がありました。（詳しい経緯はジャーナリスト・新清士氏の「画像生成AIの激変は序の口に過ぎない」および「AIの著作権問題が複雑化」参照）。流出した学習モデル（以下リークモデル）を勝手に販売したり、それを使ったサービスを提供したりすることは、NovelAI運営側に対する不正競争防止法違反や権利侵害となるリスクがあります。本来はNovelAIにお金を払わないと生成できないはずのイラストがローカルで作れてしまうわけで、多くのAIイラストコンテストでも、リークモデルを使った作品の投稿は禁じられています。

(frame embed)

問題はここからで、学習モデルは別のものとマージ（融合）することができるため、その後リーク版NovelAIモデル（以下リークモデル）をマージしたとされる「Anything v3.0」を始め、無数の派生モデルがウェブ上で公開されてきました。そうしたモデルに対し、NovelAI運営側がどのような法的立場を取るのかは現時点で明らかにされておらず、例え派生モデルの配布者が「商業利用可」としていても、NovelAIに対する権利侵害に当たるのではないか？という懸念がぬぐえない状況となっています。

またややこしいのですが、リークモデルを親、もしくは祖先に持つ学習モデルかどうかは、配布者がマージ比率を表記していて分かる場合もあれば、分からない場合もあります。リークモデルの二次派生モデルを、そうと知らずに別の人物がマージした三次モデルが配布されているケースもあるかもしれません。リークモデルにパーミッションやライセンスなどあるはずがないので、その派生モデルの法的な扱いは非常に不安定です。特にこうした学習モデルの商業利用を考えている場合、権利関係が複雑化しており、自己責任が強く問われる現状になっています。

「どのユーザーがリークモデルやその派生モデルを利用しているか見分けて追及することは現実的に可能なのか？」「リークモデルや派生モデルを販売したならともかく、派生モデルを使用したユーザーまでNovelAIへの権利侵害を問われるだろうか？」という論点もありますが、「NovelAI側次第だがリスクはあるよね」と言われればその通り。学習モデル配布者の示しているパーミッションを遵守するのは当然として、モデルの出自によっては自分で使用用途を判断し、リスクを勘案して自己防衛するしかないことを書き留めておきます。

→参照：【注意喚起】使用モデルのライセンスを再確認しよう！

【注意喚起】使用モデルのライセンスを再確認しよう！

実際にイラストを生成してみよう

さて、ここまでの基礎知識を覚えたら、あとは実行するだけです。

この記事におけるテスト生成には、HuggingFaceからダウンロードしたAbyssOrangeMix2を使用しましたが、各自の判断で好みの学習モデルをご使用ください。

ダウンロードしてきた.safetensorsもしくは.ckptファイルを「stable-diffusion-webui\models\Stable-diffusion」のフォルダに放り込めば、左上のプルダウンメニューに表示されます。VAEはさきほど紹介したwaifu-diffusion-v1-4のvae「kl-f8-anime2.ckpt」を使います。

プロンプトは「1girl,sky,smile」、ネガティブプロンプトは「(worst quality, low quality:1.4)」とします。このネガティブプロンプトは入れておくと画像のクォリティが上がるもの。サンプラーは良質な結果が期待できる「DPM++ SDE Karras」、ステップ25、スケール6.5。Seed値は「-1」でよいでしょう。

準備ができたら、右上の「生成」ボタンをクリック。

学習モデルやSeed値によってそれぞれ全く違うイラストが生成されたことと思いますが、望む結果は出たでしょうか。ちなみにこのイラスト、「高解像度補助」を効かせていないので、まだ実力の半分も出せていません。

「高解像度補助（Hires.fix）」は、生成された画像を縮小してスケールアップ、縮小してスケールアップを繰り返すことでより緻密にクォリティアップしてくれる機能。今度はこれをオンにしてみます。サンプラーと同様にいくつも種類があるのですが、今回は「Latent（バイキュービック補間）」を使います。なお、最適設定を探せ！「AbyssOrangeMix3」最速レビューに、高解像度補助の種類別結果やサンプラーを総当たりした実験結果を掲載していますので、それぞれの特徴について詳しく知りたい方はこちらをどうぞ。

最適設定を探せ！「AbyssOrangeMix3」最速レビュー

こんばんは、スタジオ真榊です。本日、賢木も愛用している「AbyssOrangeMix」の最新バージョン、「AOM3」が公開されました！カワイイ、アーティスティック、そして遠慮のないエロと三拍子そろったAOM2は層別マージモデルの傑作だったわけですが、その進化形となる「AOM3」は一体どんなモデルなのか？さっそくレビューし...

大きくアップスケールすると絵が崩壊するので、「1.5~2倍」程度が適当。今回は2倍にしています。「高解像度化の回数」は今回は0にしておきます。（高解像度化をしないという意味ではなく、0にするとイラスト生成で設定したステップ数と同じになります）

すると…

このように美しいイラストに仕上がりました！が、その反面、左手の親指が掌と溶けあって消失してしまいました。seed値を「-1」にして指が溶けないようなガチャを繰り返したり、FANBOXでこれまで紹介してきたさまざまな方法を使ったりして、こうした破綻と戦うのがAI術師の日常なわけです。AIは元画像から「連想」してノイズ除去していくので、その過程であり得ないものが生じてしまったり、構図の破綻やこうした「溶け」が生じます。

他にも、よく見ると破綻はいくつも見つかります。

いま社会現象を巻き起こしているChatGPTは「それらしい嘘をもっともらしく並べるAI」と言われていますが、画像生成AIも「それらしい嘘イラストをもっともらしく作ってくれるAI」です。どちらも生成物は一見して人間が作り出したものに酷似しているのですが、正確性はまだまだ。AIイラストに見慣れるとこうした破綻に気づきにくくなってしまうのですが、ポン出し（適当なプロンプトでササっと生成しただけのAIイラスト）ならともかく、作品として世に出す場合はここから長い長い時間を掛けて微修正を繰り返すことになります。

（※CLIP STUDIOなどの画像編集ソフトで修正することももちろん可能ですが、StableDiffusionには気に入らない部分だけを描き直してもらう「レタッチ」機能も備わっています）

レタッチ（inpaint）機能が理解る！修正＆入れ替え徹底解説

生成した画像は必ず取っておこう

StableDiffusionで生成されたAIイラストのpngファイルには、Seed値やプロンプト、生成サイズといったあらゆる情報が保存されています。text2imageのタブの2つとなりにある「PNG内の情報を表示」タブで読み込ませると、生成時の情報をいつでも呼び戻すことができ、ボタンひとつでtxt2imageのページにすべての情報を飛ばすこともできます（▲）。不要になったイラストも、あとでどんな役に立つかわからないので、削除せず大事にとっておきましょう。

pngを大事に取っておくべき理由はもう一つあります。AIイラストやそのユーザーに向けられている目は依然として厳しく、SNSなどに投稿していたら、「既存のイラストのパクリではないか」と突然疑われてしまうことがあるかもしれません。そういったときも、そのイラストのpngに内包されているプロンプトやseed値といった情報や、前後に生成したイラスト群がきちんと残っていれば、自分がそのイラストを試行錯誤しながら生成したことを示す最高の証拠になります。無断転載した人物に「自分こそが本来の生成者だ」と自称されたときも、投稿画像にExif画像が残っていなければ相手は同じ画像を二度と生成できないので、容易に自分が本来の生成者だと証明することができます。

こちらは、実際にAIイラストレーターが盗作を疑われた例。生成した経緯や意図をきちんと証明することができれば、このように疑いを晴らすことができます。

(frame embed)

image2imageしてみよう

さて、ここまで説明してきたのは、完全なノイズ画像からプロンプトを頼りにイラストを作る「text2image」のやり方でした。画像生成AIを使ったもう一つの生成法が「image2image」、つまりノイズ画像からではなく、参考となる画像をもとにイラストを作る方法です。細部の書き込みを増やすクォリティーアップに使えるだけでなく、プロンプトを変更することで、おおむね構図を維持しながら、別のイラストに変えることができます。

ちなみに、さきほど触れた「レタッチ」機能は、まさにこのimage2imageをイラストの一部だけに作用させる方法。良い部分は残して、気に入らない部分だけをピンポイントで再生成するimage2imageということができます。

こちらはさきほどの少女のイラストを「1girl,smile,sky」から「1boy,angry,city」に変えて生成したもの。元画像の髪が長いのでそれに引っ張られていますが、胸が消えたり顔が怒り顔に変化したり、砂浜だったところを無理やり建物の外壁と解釈したりして、別のイラストに描き換えています。無理やりすぎるので、破綻がいたるところに見えますね。

設定画面はこのようになっています。

text2image画面になかった「ノイズ除去強度」というのが、「元画像と新しい画像のどっちを重視するか」を示しています。０だと元画像と全く同じものができますし、１だと元画像を全く参照せず、新たに「1boy,angry,city」のイラストが描かれます。この場合は「0.75」としているので、少女のイラストの全体図を意識しつつ、強めに「怒ったシティボーイを描け！」と指示していることになります。

なお、プロンプトを書き換えず、キャンバスサイズだけを大きくしてimg2imgすれば、単純に元画像のクォリティーアップを図ることもできます。その場合、「ノイズ除去強度」を0.5より下げないと、同じ構図の訳の分からない奇形画像が生じてしまうので注意しましょう。あくまで構図を維持しながらクォリティーアップしたいのなら、0.2~0.35あたりにとどめておくのがよいでしょう。

クォリティ爆上げ！アップスケールを覚えよう

【重要】AI術師がやってはいけないこと

img2imgの話ができたので、ようやくこの話ができます。画像生成AIはさまざまな不可能を可能にする夢のようなツールですが、法律上、またはモラル上やってはいけないことがいくつもあります。必ず下記を理解した上で使用するようにしてください。

▽他人の著作物のimage2image

AI術師となった以上、最大のタブーは「他人が著作権を持つ画像をi2iすること」です。界隈では昨年秋頃から、他人が苦労して描いたイラストをi2iして自作品と称する悪質行為が何度も露見し、画像生成AIユーザー全体にとって大きなダメージとなっています。

(frame embed)

i2iパクリはどんなに加工しても元絵を知っている人にはバレますし、明確な著作権侵害行為であり、訴訟に発展する恐れもあります。絶対にしないようにしましょう。i2iしていいのは「自分でt2iした画像」「自分で描いた絵」「自分で撮った写真」と、それらを元に自分で加工した画像だけだと思って下さい。Google画像検索で出てきた画像をポンと放り込んでi2i･･･のようなことをしていると、いずれ大変なことになります。

AI術師が知っておきたい著作権の話▼「イラスト無断転載事件」で考える

▽クリエイターへの敬意のない言動

画像生成AIは絵心のない人でもハイクォリティなイラストを生成できる反面、苦労してイラスト技術を研鑽してきた人々にとっては、「これまでの努力を無にするもの」と思われても仕方のない技術です。ただでさえそうした背景がある上に、先に述べたi2iパクリ事件を始め、イラストレーターや漫画家、作家などクリエイターへの敬意に欠けたAIユーザーの言動（発言＆行動）が繰り返されてきました。FANZAやPixivといったプラットフォームに連日大量に似たような作品を投稿し、ランキングやタグがAI生成作品ばかりになってしまうという現象も。AIユーザーに対する世間の目は大変厳しいものがあり、クリエイターを軽んじるような言動は必ずトラブルを招きます。

象徴的なのが「破綻のあるイラストを平気で投稿することが許せない」というクリエイターの声。AIユーザーは「いろいろ試していたらこんな画像が出せた」と無邪気に投稿している（＝生成画像を自分の『作品』だと思っていない）のですが、クリエイターからすると「破綻している画像を平気で自作品として投稿する＝自分たちが大切にしてきた創作をバカにしている」と誤解されてしまうのです。

破綻をめぐる考え方もそうですが、AIイラストへの無理解が批判につながることも多いです。「AIは絵師のイラストを記録してコラージュしている」とか「著作権者に無断で違法な学習をしている」といった事実関係の誤認も多く、「AIイラストにはいっさい著作権がない」と勘違いした人物がAI術師への報復として無断転載トラブルも起こしたこともありました。クリエイターへの敬意を持つことは大切ですが、こうした誤解に基づいた批判や、単にAIユーザーであるというだけで個人が中傷されることはおかしいと、個人的には考えています。

(frame embed)

▽無修正画像の投稿

画像生成AIが生成するエロ画像は、性器のほとんどが無修正です。これは、エロ画像を生成するために学習させた画像セットが無修正のものであることに由来しています（エロ画像とは無修正のものだと学習している）。自分で楽しむぶんには良いのですが、公的空間に投稿するときはかならず自分で修正するようにしてください。日本国内において、性器が露骨に描写されているものは「わいせつ物」と解釈されています。たとえ投稿先が海外サイトであっても、日本国内から投稿した場合は、刑法175条の「わいせつ物頒布等罪」が成立します。（参考：FC2事件）

▽「本物」と見紛う画像の投稿

また、著作権以外にも、配慮しなくてはならない名誉権や肖像権、パブリシティ―権などの問題があります。画像生成AIに習熟してくると、例えば追加学習によって特定のイラストレーターの画風をそっくり真似たり、実在する人物の「存在しない写真」を生成したり、児童ポルノと見紛うような精巧な「非実在児童」のNSFW画像を生成したりすることができるようになります。

これらは著作権上の問題をたとえクリアしたとしても、全く別の文脈で法的トラブルを招くことが考えられます。法的にはいろいろ言えるのですが、実在の人物や商標がからむ場合は「自分がされたら怒る」ことはしないようにするのが自分を守るために必要な行動だと思います。

中級者になるために

ここまでの内容がだいたい飲み込めたら、ある程度好きなイラストを生成できるようになっていると思います。最初は好みの学習モデルを探したり、エッチな画像を作れるか試してみたり、プロンプトを勉強してみたり、スケールやステップ、サンプラーにこだわってみたりと、触っているほどに上達していくことと思います。これまでのFANBOX記事で、上達するために参考になるものを以下にまとめました。重要度別に★５つで評価しています。

【ローカル版】エロ特化！最強プロンプト（呪文）新辞典

★★★★★：プロンプトの基本。2万5000字くらいあるのですべて覚える必要はないが、何となく全体をパラパラ読んでおくと、いざというときに「ああいうプロンプトあったな…」と思い出せるはず。スペルがわからなくなったプロンプトを探したいときは、適当に「Ctrl+F」検索して使ってください。生成された画像と一緒にプロンプトを紹介する「画像で逆引き！プロンプト新辞典」もご参考に。

「惜しい画像」捨てないで！Variation機能の活用法

★★☆☆☆：せっかく良い画像ができたのに指などが崩壊しているとき、まず試してほしいVariation機能についての記事。できた画像を「ちょっとだけずらす」ことが簡単にできる。

studiomasakaki.fanbox.cc

https://studiomasakaki.fanbox.cc/posts/5173574

★★★☆☆：優れたプロンプトができたとき、「同じシチュエーションをいろんなキャラクターで描いてほしい」という欲求を叶えてくれるdynamic promptを使った生成方法を紹介。ごく簡単なので早めに覚えたい。

クォリティ爆上げ！アップスケールを覚えよう

★★★★☆：実はいろいろな方法があるアップスケール（高解像度化）のやり方についての解説。「小さく出して、大きくアップスケールする」がAIイラストの基本です。

レタッチ（inpaint）機能が理解る！修正＆入れ替え徹底解説

★★★★☆：「構図はいいんだけどここだけ気に入らないんだよね」というイラストを「レタッチ」機能で修正する方法についての記事。おまけでAIイラストのメイキング動画（？）を作る方法も紹介しています。

Controlnetが理解る！モデル15種＆プリプロセッサ35種を徹底解説

★★★★★：最先端・最重要の拡張機能「Controlnet」の全体像を解説した総論記事。text2image,image2imageに継ぐ第三のAIコントロール方法と言っても過言ではないので、できるだけ早く使い方を覚えておきたい。線画化や線画着色、背景差し替え、手のダイレクト修正、アップスケール、アウトペイント（キャンバス外の『存在しない続き』を描いてもらう）など、多彩な機能が詰まっている。

超革命！「Multi Controlnet」でできるようになったこと

★★★★☆：アップデートにより、Controlnetを同時に複数起動できるようになった。これにより、さらにControlnetでできることが拡大・加速した。いま現在も進化を続けているので、早く追いつきたい。

【ゲームエンド!?】controlnet拡張で手の描写を支配しよう！

★★☆☆☆：Controlnetを使った手のダイレクト修正などの手法をまとめた。ちょっとむずかしいのでまだ敷居が高いかもしれないが、うまく使えるようになれば格段に手の破綻の修正が容易になる。

LoRAでキャラ再現！15分でできる追加学習入門

★★★★★：「LoRA」という追加学習の仕組みを使って、AIが学習していないことをできるようにするやり方。版権キャラ再現やマニアックなプレイ再現など、追加学習によってこれまでにない表現が可能になる。自分で追加学習しなくても、ウェブ上で多くのユーザーが作った珠玉のLoRAが配布されている。線画化や線画着色はこのLoRAを使ったテクニック。

手の崩壊も簡単修正！「Textual Inversion」徹底比較

★★★☆☆：LoRAのほかにも自分で用意した画像からstable diffusionに概念を学習させる手法はいくつかあり、その一つがTextual Inversion。非常に軽量なファイルを入れることで、手の崩壊を防いだり、画像の低劣化を防いだり、LoRAほど強力ではないが版権キャラの再現などができるようになる。特にネガティブプロンプトとして使う品質向上TI（easynegative,badhandv4など）は非常に広く使われており、導入も簡単なので早めに覚えたい。

ダブルで便利！一発出し拡張機能を入れておこう

★★★☆☆：キャンバスサイズなどの設定を一発出しできるUI系拡張機能の説明記事。便利なのでささっと入れておこう。

「Wild card」でもっとForever生成を楽しもう！

★★☆☆☆：例えば「__hair__」と書くと、生成するたびに「long hair」や「twintails」などランダムでさまざまな髪型を呼び出してくれる「wildcard機能」の解説。

終わりに

特にControlnetとLoRAについては革新的な技術なので、できるだけ早めに覚えておくと上達が早いと思います。ただ、一番イラストのクォリティそのものが上がるのは、やはり優れた学習モデルを入手すること。性能のよい学習モデルはツイッターやDiscordなどですぐ話題になるので、アンテナを貼っておくと良いでしょう。

ここまで長い文章を読んでくださり、ありがとうございました。最後に、スタジオ真榊のツイッターアカウントを貼っておきます。最新情報はこちらでお知らせしているので、ぜひフォローしてみてくださいね。

これを読んでくださったあなたが素晴らしいAI生成ライフを送れることを祈っています。