最適設定を探せ!「AbyssOrangeMix3」最速レビュー (Pixiv Fanbox)
Content
こんばんは、スタジオ真榊です。本日、賢木も愛用している「AbyssOrangeMix」の最新バージョン、「AOM3」が公開されました!カワイイ、アーティスティック、そして遠慮のないエロと三拍子そろったAOM2は層別マージモデルの傑作だったわけですが、その進化形となる「AOM3」は一体どんなモデルなのか?さっそくレビューしたいと思います。
=====================================
注意!AOM3は2/25現在、2と異なり生成画像の商用利用などが禁止されています。利用の際はこちらの記事「【注意喚起】使用モデルのライセンスを再確認しよう!」をご覧いただき、ライセンス表記をもう一度確認することをおすすめ致します。
=====================================
AbyssOrangeMix2の振り返り
※WarriorMama777氏のHuggingFaceより引用
「WarriorMama777」氏が公開しているAbyssOrangeMixシリーズは、日本の5ちゃんねる発の階層マージモデル。同氏はこれまでにもアニメキャラ生成を得意とする「BloodOrangeMix」「ElyOrangeMix」そして「AbyssOrangeMix」とさまざまな学習モデルを提供されており、国内外のユーザーに高い人気を誇ってきました。
中でも「AOM2」はイラスト風でありながら奥行きのあるアーティスティックな塗りが特色で、Gapeをミックスしたえげつないエロ描写、Basilmixによるリアルでハリのある肌感と、魅力の多いモデルでした。sfw(健全)/nsfw(エロ)/hard(ハードエロ)の三種類のモデルがあり、nsfwのエロ部分はNAI、hardはgape由来のもの。生成したイラストにはMidJourney や Nijijourneyのようなファンタジー&パンキッシュな雰囲気があり、パキッとした高精細なアニメ塗りが得意な7thAnimeV3とはまた違った奥行きのある素晴らしさでした。
その一方で、エロ描写を任せると、ときにリアルすぎる顔やタッチの荒れが出てしまうところや、プロンプトで制御しないとアニメ塗りから離れすぎてアートイラストっぽくなってしまい、賢木の求めている漫画素材としてはやや使いづらいところが難点と言えば難点。今回の「3」はどう変わったのでしょうか。
AOM3の特徴と変更点
※WarriorMama777氏のHuggingFaceより引用
公式の解説によると、AOM2にはNSFW/HARDモデルを使ってHires.fixでアップスケールしようとすると、「不気味なリアル顔」(by公式)になってしまう不具合があり、3ではこれを改善したとのこと。これによってSFWモデルとの品質に差異がなくなったため、AOM3は健全・NSFWの区別がない統一モデルになりました。
その上で、AOM3は通常版のほかに、塗りの異なる「A1」「A2」「A3」の3種のモデルが新たに登場。A1は最も塗りがフラットなアニメ風のモデル、A2は油絵のようなアーティスティックなイラストとCounterfeit2.5由来のスタイリッシュな背景が楽しめるモデル。A3はその中間点で、アニメのようなカワイイ顔立ちとリアルな塗りを両立させたモデルとのことです。7thAnimeV3のA・B・C三種と似た区分けですね。めっちゃワクワクするやん…!
また、一部マージ元として、新たにアジア人女性のフォトリアルな画像生成を得意とする「chilloutmix」が加わっている点も注目です。フォトリアルなモデルはアニメモデルとマージすることで、より肌の質感表現が豊かになることが知られており、緻密な背景描写とアニメキャラの同居で話題をさらったCounterfeit2.5ともども、絵柄にどう影響するか気になるところです。
公式オススメ設定は?
AOM2にも公式のオススメSTEPやサンプラーがありましたが、今回もオススメ設定が記載されています。今回もネガティブプロンプトはできるだけ短い方がよいとのことですが、リアル顔や画面のぼけを回避する方法として、以下の呪文が紹介されています。
リアル顔回避:(realistic, lip, nose, tooth, rouge, lipstick, eyeshadow:1.0), (abs, muscular, rib:1.0)
画面ぼけ回避:(depth of field, bokeh, blurry:1.4)
これらを踏まえ、アニメキャラ生成向けの推奨ネガティブプロンプト(NP)は以下になるとのこと。
アニメキャラ生成向けNP:(worst quality, low quality:1.4), (realistic, lip, nose, tooth, rouge, lipstick, eyeshadow:1.0), (dusty sunbeams:1.0),, (abs, muscular, rib:1.0), (depth of field, bokeh, blurry:1.4), (greyscale, monochrome:1.0), text, title, logo, signature
===============おすすめ設定=================
サンプラー:「DPM++ SDE Karras」を推奨
STEP: テスト生成は12以上、本番生成なら20以上推奨
クリップスキップ: 1 または 2
推奨スケール:(未記載)
推奨アップスケーラー : Latenet (nearest exact=ニアレストエグザクト補完)をノイズ除去強度0.5~0.6で掛ける。絵柄を極力変えたくない場合はSwin IR、ESRGAN、Remacri などを0.35~0.6で掛ける
======================================
これらを踏まえ、下記の設定を組みました。普段の賢木の設定とは少し異なりますが、テストなので公式推奨で比較します。
実験1 モデルごとの違いを確かめる
◇プロンプト:1girl, outdoor,zettairyouiki,high resolution,masterpiece,best quality,extremely detailed CG,official art,overlooking panorama view,beautiful sky
◇ネガティブプロンプト:(worst quality, low quality:1.4), (realistic, lip, nose, tooth, rouge, lipstick, eyeshadow:1.0), (dusty sunbeams:1.0),, (abs, muscular, rib:1.0), (depth of field, bokeh, blurry:1.4), (greyscale, monochrome:1.0), text, title, logo, signature
ネガティブ用のTextual Inversionも今回はオフ。SEEDは2種類、上記の公式おすすめネガティブプロンプトを使用し、AOM2、AOM3、AOM3A1、AOM3A2、AOM3A3で画像生成しました。その結果がこちら。
うほ~いろいろ分かることがありますね!
まず目につくのが、AOM2(hard)とAOM3(通常版)はかなり似たモデルだということ。A1~A3はまさに公式の説明どおりで、アニメ風、油絵風、その中間という印象そのままの出来ですね。とりわけA2の描き込み具合はすごい! この縮小されたサイズの表示だと、一番目を引くのはA2ですね。拡大すると主線ははっきりしないのですが、まさに「油絵風」という感じがします。背景も含め、細部に至るまで描き込まれている感じにCounterfeit2.5の影響を感じ、AOM2から最も離れたモデルという印象があります。
あと、別の実験ではプロンプトで特に指示していないのに、NSFWな描写が出たケースもありました。このあたりは健全モデルと区分けされていないのであるあるになるのかなと思います。
TIなしということもありますが、全体に手指は破綻がやや目立ち、くっきりしません。このあたりは固定seedの一発出しなのでなんとも言えない部分がありますが…
実験2 普段の設定
次に、サンプラーとアップスケーラーを賢木の普段愛好している設定に変えてみます。
サンプラー:DPM++2M Karras
アップスケーラー:Latent
普段あまりサンプラーをいじらないんですが、SEEDが同じでも結構絵柄が変わるんですね。もう少しパキッとした塗りになるかなと思いましたが、全体にアーティスティックな雰囲気は維持されています。このあたりはプロンプト次第なのかなと思います。
あと、生成時間がこちらの方が早い。ニアレストイグザクトはちょっと時間がかかるんですよね。
実験3 VAEをorangemix用に変更してみる
忘れていましたが、普段賢木はOrangemix純正のVAEではなく、waifu-diffusion-v1-4のvae「kl-f8-anime2.ckpt」を使っていたのでした。せっかくなので純正品を試してみましょう。設定は実験2と全く同じで、違いはvaeのみです。
おお…以外とはっきりと違いが出ましたね。絵柄とのフィット感はありますが、さきほどまでのビビッドな彩色に見慣れていると結構これは淡くて暗い感じがします。アニメ風よりソシャゲ風に近いムード。賢木ははっきりしたカラフルな着色が好みなので、普段のものに戻そうかなと思います。(※以降の実験もkl-f8-anime2.ckptを使用)
実験4ネガティブプロンプトに「3D」を使ってみる
公式の説明では「3D」をネガティブプロンプトに使うと効きすぎてラフスケッチ風になっちゃうことがあるよ、という注意喚起がありました。実際に使うとどうなるのか、試してみましょう。ネガティブプロンプトを次のように変更します。ついでに、アニメキャラ向け推奨NPも剥ぎ取って、従来型のシンプルなものにしてみました。なぜかにっこりした黒人が見えますね。(術師ジョーク)
NP:(worst quality, low quality:1.4), 3D
おっと…!
意外といい感じでは!?むしろ、3Dが効いているというよりはアニメキャラ向け推奨NPが効かなくなった影響によって、抑えられていたアーティスティック感が増している印象があります。A3がさきほどまでのA2くらいのタッチになっていて、A1や通常版も豊かな描き込みとアニメ風の顔立ちが同居していて、いやいやこれは結構高いクォリティですね…。「3D」の悪影響は全然感じません。
ここまでScaleを低めの「7」で固定していたので、全体に淡いムードになっていた可能性があります。次はAOM4種類ごとにSCALEによる違いを試してみましょう。
実験5 Scaleの違いを確認してみる
見にくくてごめんなさい。横軸は左からAOM3、A1、A2、A3。縦軸がスケールの違いを示しています。重いので、いったんダウンロードしてからご覧になるとまだ見やすいかな…
Scaleを上げても意外とそんなにパキッとならない!11あたりからキツくなるのはまあ予想どおりでしたが、意外と6~8で安定している感じがありますね。
実験6 アニメ塗りを探究する
なかなかパキッとなってくれないので、今度はプロンプトでアニメ塗りに寄せてみます。NPではアニメ向け公式推奨NPにTIを導入。
プロンプト:1girl, outdoor,zettairyouiki,32 years old,high resolution,masterpiece,best quality,extremely detailed CG,official art,overlooking panorama view,beautiful sky,flat color,anime coloring
NP:(worst quality, low quality:1.4), (realistic, lip, nose, tooth, rouge, lipstick, eyeshadow:1.0), (dusty sunbeams:1.0),, (abs, muscular, rib:1.0), (depth of field, bokeh, blurry:1.4), (greyscale, monochrome:1.0), text, title, logo, signature,
bad_prompt_version2
AOMとAOMA1は大きくアニメチックな内容に引きずられました。2、3は絵の内容は維持しつつ、塗りはリアル調からかなりアニメ側に寄りましたね。特に3はこれくらいもちょうどいいんじゃいかなと思える塗りです。
同じくアニメ塗りを探究するため、同人作品のヒロイン・綾香ちゃんの既存プロンプトで生成してみます。こちらには(anime coloring:1.4)が入っているので、かなり強くアニメに寄るはず…
おおっ、これはかなりアニメ塗りに近い感じ。ただ、なぜか細部の破綻は激しいですね。ニアレストエグザクトによる2倍アップスケールと、bad prompt2の影響が大きそうな感じ。特にセーターのあみあみになっているところが三つ編みと誤認されてしまったり、別の柄に置き換わったりしています。なかなか難しい…。
AOM2で綾香ちゃんを出していたサンプラーとアップスケーラーにしてみましょう。
サンプラー:DPM++2M Karras
アップスケーラー:Latent
ウォオンうまくいかないよぉ!髪の長さはNPにlong hairを入れれば何とかなるとして、細部の破綻がどうしても気になる。アップスケーラーのさらなる研究が待たれる…というところでしょうか。
実験7 全部のサンプラーを試す
その名の通り、Euler aから全部のサンプラーを試してみます。Seed値固定でアップスケーラーはなし。綾香ちゃんのプロンプトで、(anime coloring:1.2)を入れてあります。ネガティブプロンプトはAOM3公式おすすめのアニメキャラNP。それでは一気にどうぞ!
やっぱり公式オススメのDPM++ SDE Karrasが一番良さげに見えますね。DPM++ 2M Karrasもよく似ていますが、細部まで描けているのはSDEのほう。うーん、アップスケールのやり方さえわかればこれで戦えそうなんだけどな!
実験8 アップスケーラー全部試す
はい、どうしても公式オススメの「latent(nearest exact)」が納得いく出来にならず、A1モデルで全部のアップスケーラーを試しました。768✕512で出力した元画像はこちら。さきほどの実験を踏まえて「DPM++ SDE Karras」を使用しています。
アップスケーラーはすべて強度0.5で2倍サイズに指定。その結果、良かったのは以下の2つでした。
「R-ESRGAN 4x+ Anime6B」
「latent(バイキュービック)」
なお、公式オススメの「latent(nearest exact)」はこれ。
やっぱり2倍サイズだと全然安定しないんですよね。ちなみに、全てはのせませんが他のアップスケーラーはほとんどこちらのようにセーターの編み模様を三つ編みと勘違いしたり、アクセサリと勘違いしたりして描写していました。
結論としては「AOM3A1」✕「SDE Karras」✕「R-ESRGAN 4x+ Anime6B」2倍アップスケールで、プロンプトで(anime coloring:1.2)を掛けるのが現在のところ有望な設定候補。アニメ塗りのA1モデルなので、ネガティブプロンプトを公式おすすめのアニメキャラ向き設定にするか、シンプルにするか、あとはTIの影響をどう見るか、がポイントになりそうです。
【注意】R-ESRGAN 4x+ Anime6Bで複数枚の画像を同時アップスケールしようとすると、GPU使用量100%に張り付いて「CUDA out of memory」になる現象がたびたび起きました(RTX3060 12GB使用)。比較的重いアップスケーラーのようなので、1枚1枚だと可能でも、多数枚生成には限界があることにご注意ください。
実験9 ネガティブTextual Inversionでどう変わる?
bad promptやeasy negativeなど、イラストの品質に関わるネガティブ系のTextual Inversion。手の崩壊も簡単修正!「Textual Inversion」徹底比較でも総当りを試しましたが、さきほどのAOM3結論設定で総当りするとどうなるのか試してみました。使用したTIは以下の通り。比較画像の一番下に「TIなし」があるので比べてみてください。
bad_prompt_version2,
bad_prompt
bad-artist-anime
EasyNegative
うわっ、意外な結果。
・bad_prompt_version2
強すぎる。AOMもA1もパッキパキ。もともと結論設定が超アニメ寄りだからか、さらにアニメに寄せようとしすぎてセーターの質感も固形物みたいになってしまった。脳死でTI入れてはいけないことがよくわかる。どちらも「TIなし」にはないイヤリングが現出しているのも気になる。弱めて掛ければなんとか?さすがに手はきっちり修正が掛かるのか、不自然さはない
・bad_prompt
version2に比べてさらにパッキパキな出来に。これはもともと公式も「0.8くらいで掛けてね」と言ってたバージョンなので仕方ないが。手に強く干渉しているのか、ピースサインができている。
・bad-artist-anime
さきほどの二種に比べると塗りに関してはまだましだが、A1は二重眉になっており、別の問題が生じている感じ。なぜかこれだけソファの色が赤に変化。あまり使いたくない感じ。
・EasyNegative
セーターの質感が一番残ったのはこれ。ただ、アップスケーラーでも生じていた三つ編み化問題が再現してしまっているのと、結局指が治ったかというと微妙な感じはする。ヘアピンも現れていて、なんだかな~。
・ニ種盛り(bad-artist-anime, EasyNegative)
全体に大きな崩壊はなく、意外とまあなんとかなっている感じ。わざわざ掛ける必要性は感じない。
・三種盛り(bad_prompt_version2,bad-artist-anime, EasyNegative)
謎の口元マスクが出現。さすがにbad promptが入るとパキパキになってしまうのはしょうがないのか。手の修正は強く入るので、崩壊した指のレタッチ専用と割り切ったほうが良いかもしれない。
・全部盛り(bad_prompt_version2, bad_prompt, bad-artist-anime, EasyNegative)
サングラスかっこいいわね!やはりパキパキになるので良い効果は感じない。
そんなわけで、勝手が分からないモデルを扱うときは脳死でTIを掛けてはいけないなあと実感。手の修正についてはbad prompt ver2が優秀っぽいので、インペイントするときだけ活躍してもらえればいいかなと思う。もちろんこれは賢木好みのアニメ方向に大きく振れた各種設定で行っているので、リアル方面の場合はまた違った結果が出ると思う。
実験X ハローアヘガオテスト
最後の実験はNSFW。修正がめんどっくさいので一回しかやりませんよ!さきほどのanime coloring1.4がなかなか有望そうだったので、今度は1.2にしてみましょう。
プロンプト:ahegao,nsfw,nude,sex from behind,penis in pussy,pov,1boy and 1girl,(completely nude:1.4),1girl, bed room, (anime coloring:1.2),masterpiece,extremely detailed CG,official art,high resolusion,erotic,nipples,sweat,vulgarity【+綾香ちゃんの召喚プロンプト】
なんか…さっきよりやる気があるんじゃないか?え?
A2はやはり油絵風ということもあってか、エロとの親和性は低い感じがしますね。えっち絵というより絵画という感じ。「text, title, logo, signature」が入っているんですが、部分部分で文字や♡がちょい入りしてしまっています。あと、AOMシリーズくんはいまだに脇を性器だと思っているようなので、わからせないといけませんね。
ガビガビとした線が出ているのは、tremblingやmotionlineをNPに入れれば取れるかな…。主にエロ方面に使うのであれば、A2、A3はやや厳しく、無印かA1をちょうどよい設定・プロンプトでいじっていくのがよいかと思います。今のところ「anime coloring:1.2」は有望そうな印象がありますね。
おわりに
ずいぶん長くなってしまいましたが、なんとかたどり着けたアニメ設定がこれ(▲)。ここをスタート地点にして、もっと好みに寄せていきたいですね。アニメ調が好きな方も、背景がリッチなCounterfeit系が好みの方も、幅広く包んでくれそうなAOM3。総当りは誰がやっても何かの発見があるので、ぜひご自身の環境でも試してみてください。
個人的所感としてはA1もしくは無印かな、という感触。特にA1はうまく設定さえ練れればイラストもエロもいける感じを覚えましたが、その設定を見つけるのが大変そう…。counterfeit2.5がうなりを上げているA2、A3は情報量の多い映えイラスト向きで、ツイッターで伸びそうな感じですね。
とかなんとか言っている間に午前3時。今週も週末に突入してしまいました。皆さん、楽しいAIホリデーをお過ごしくださいませ!そんなわけで今日は最適設定を探せ!「AbyssOrangeMix3」最速レビューでした。
では、また近いうちに…スタジオ真榊でした。