Home Artists Posts Import Register

Content

こんにちは、スタジオ真榊です。本日(日本時間2024年3月18日)、StableDiffusionXL(SDXL)ベースのアニメ調モデル「AnimagineXL」に最新モデルの「3.1」が公開されました! 幅広いユーザーに支持された「XL3.0」と具体的に何が変わったのか、同じ条件で生成すると画像がどう変化するかを最速レビューしたいと思います。




前回の記事はこちらから。SDXLでの生成が初めてという方は、推奨環境やVAEなどについて詳しく解説しているので、3.1を使用する場合も参考になるかと思います。(※Diffusersなど、AnimagineXL3.0の利用に必要な環境を事前構築する必要があります)

AnimagineXL3.0でSDXLデビュー!導入法からおすすめ設定、サンプラー選びまで

こんにちは、スタジオ真榊です。今回は革新的な精度で話題を席捲したStableDiffusionXL(SDXL)ベースのアニメ調モデル「AnimagineXL3.0」特集ということで、主にこれまでSD1.5系で生成してきたユーザー向けに、SDXLの入門記事から導入方法、XL用のおすすめ設定、プロンプトの基本、サンプラー比較などをまとめた記事を...


AnimagineXL3.1とは

AnimagineXLシリーズは、Cagliostro Research Labが公開したSDXLベースのCheckpoint。高精細なアニメ調画像の生成を得意とし、特に「AnimagineXL3.0」は幅広い範囲のアニメキャラクター再現がLoRAなしでできることが特色でした。SD1.5系からの移住を渋っていた多くのユーザーが、3.0をきっかけにSDXLデビューしたと言われる有名モデルで、スタジオ真榊でもプロンプト超辞典の調査にこのモデルを利用しています。


【Cagliostro Research Lab公式Blog】



公式ツイートによれば、AnimagineXL3.1は「より高品質のアニメ スタイルの画像を生成できるように改良されたモデル。順序付けして分類・タグ付けされた87万枚の画像データを使用してトレーニングされており、従来のデータセットも含めると 210 万枚のデータセットによって構成されている」とのことです。従来のバージョンはNovelAI・V3モデルの学習方法を参考に、タグの順序に着目して学習しているとされており、今回も同様の学習方法が採用されているとみられます。また、学習にあたっては、オンライン画像生成サービス「SeaArt」のスポンサードを得たとのこと。


モデルは以下のリンク先の「Files and versions」内にある「animagine-xl-3.1.safetensors」からDLすることができます(右側の↓マークをクリック)



Animagine XL 3.0との学習方法の違いは以下の通り。

データセットの大幅な増量(120万枚分→210万枚分)に伴い、手や指などの人体描写の正確性も向上しているそうですが、公式はその一方で「究極のアニメモデルとしては、依然として足りないところがあると考えられるかもしれない」と謙虚なコメントも残しています。



AnimagineXL3.0との使い方の違い

「AnimagineXL4.0」ではなく「3.1」というナンバリングからも分かる通り、あくまで3.0の調整版という位置づけのこのモデル。使い方も、基本的には3.0と同様で問題ないようです。例えば、プロンプトの順序も3.0と同じで、


【1boy/1girl, (キャラクター名), (作品名), 以降その他のタグ】


このような順で指示すればOKとのこと。ただ、公式の説明を見る限り、微妙に使い勝手が異なっている部分もあります。


◆クォリティタグとレーティングタグがマイナーチェンジ

まず、クォリティタグが一部変更されています。「3.0」は下記のようなクォリティタグで学習されていましたが、「高品質: high quality」が廃止され、「great quality」と「good quality」の二つが代わりに導入されています。それぞれを利用すると、画風がかなり大きく変化します。


傑作: masterpiece

最高品質: best quality

高品質: high quality →「great quality」「good quality」に二分

普通品質: normal quality

低品質: low quality

最低品質: worst quality


さらに、成人向けの表現を生成するかどうか指定する「レーティング」タグも、それぞれ「コロン」を使わないシンプルなものに変更されています。


【3.0】rating: general →【3.1】safe

【3.0】rating: sensitive →【3.1】sensitive

【3.0】rating: questionable, nsfw →【3.1】nsfw

【3.0】rating: explicit, nsfw Explicit →【3.1】explicit, nsfw


3.0では、masterpieceタグを使うとえっちなムードが出てしまうことが知られていましたが、今回もやや困り眉のセクシーな顔立ちになる効果が見られます。safeを使うことで、ある程度は軽減されるようです。

            ←通常生成  /  「safe」を加えて生成→



◆画風の年代指定

3.0と同様、何年ごろに流行した画風か指定できるタグも、「late」が「recent」に変更。


newest:2022〜2023年

late:2019〜2021年→recentに変更

mid:2015〜2018年

early:2011〜2014年

oldest:2005〜2010年


ついでに、2024年になったことを受けてか、対応する年代も微妙に変更されています。 (※newestが2021~2024年になる等)


◆美的(aesthetic)タグの導入

新しい概念として、aestheticタグというものが導入されています。これは、コンテンツの美的価値を評価する学習済みモデル「shadowlilac/aesthetic-shadow-v2」を使ってデータセットを「very aesthetic」「aesthetic」「displeasing」「very displeasing」の4段階で評価した結果といい、それぞれのレーティングがクォリティタグとは別に「美的タグ」として機能するとのことです。(very aestheticと打ち込めば、データセットから特に美しいとAI評価されたもので学習した特徴量が再現される)


推奨クォリティタグとNP

公式で推奨されているクォリティタグとNP(ネガティブプロンプト)は以下の通り。


▽クォリティタグ

「masterpiece, best quality, very aesthetic, absurdres」をプロンプト冒頭に挿入(1girlよりも前)


▽NP

nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]


推奨キャンバスサイズは変更なし

「3.1」では以下のキャンバスサイズがサポートされています。これは「3.0」と同様のものです。


1024 x 1024px 1:1

1152 x 896px 9:7

896 x 1152px 7:9

1216 x 832px 19:13

832 x 1216px 13:19

1344 x 768px 7:4

768 x 1344px 4:7

1536 x 640px 12:5

640 x 1536px 5:12



3.0との違いを生成画像で比較検証

さっそく生成してみましょう。とはいえ、やみくもに生成しても「3.0」との違いが分かりませんね。ここはせっかく「プロンプト超辞典」を作ったときの資産がありますので、Seed値などを全く同じ生成設定にして、どのように生成結果が変化するか比較してみましょう。


使用したのはこちらの「クォリティタグ画像比較」。超辞典に掲載されたクォリティタグの効果を「1girl+〇〇(masterpieceなど)」の形式で順に生成したもので、これと全く同じ設定で生成してみます。

クォリティタグ画像比較【#プロンプト超辞典】

「プロンプト超辞典」の編纂過程で生成された画像を網羅的に紹介し、画像からプロンプトを逆引きできる辞典です。生成にはAnimagineXL3.0を使用しています(詳しい設定は記事末尾に記載) 比較実験に使用した設定(1girlちゃん) AXL3を使用して下記の設定で生成した「1girlちゃん」2人を軸に、見出し語のタグを後ろに...


結果がこちら。左の画像2列が3.0、右の画像2列が3.1で、それぞれCheckpoint以外は全く同じ設定です。つまり、3.1用のクォリティPP、NPは未使用です。


特徴として感じるのは、「3.0」では「1girl」のみで生成したときに出たこちらのキャラクター2人(1girlちゃん)の容姿があまり保持されなかったのに対して、「3.1」では比較的キープされた点でしょうか。

               ▲「1girlちゃん」


また、おおむね生成結果の路線は「official art」などを除いて同じである一方、「detailed」とつくとちゃんとフォーカスがアップになるところなど、よりプロンプトの利きが率直になっている印象があります。


さらに、3.1で美的タグとして使われた「very aesthetic」がたまたま実験対象に入っていましたが、3.0では微妙に崩壊した感じの低劣な画像が出ていたのに対し、3.1ではきちんと整った画像になっていました。両者は前述したように、クォリティ関係のタグ付けが微妙に違う方法で学習されているので、今度はそこの違いを実験で明らかにしたいと思います。



実験2:ポーズタグ

次に、クォリティタグではなく「手・指・腕関連のポーズタグ」で比較を行います。ただし、今度は全くの同条件ではなく、3.1では公式の指示したクォリティタグとNPを使って生成してみることにします。公式の指定通り、クォリティタグは「1girl」より前に入力します。

「手、指、腕関連」ポーズタグ画像比較【#プロンプト超辞典】

「プロンプト超辞典」の編纂過程で生成された画像を網羅的に紹介し、画像からプロンプトを逆引きできる辞典です。生成にはAnimagineXL3.0を使用しています(詳しい設定は記事末尾に記載) ≪手で〇〇を隠す≫ 比較実験に使用した設定(1girlちゃん) AXL3を使用して下記の設定で生成した「1girlちゃん」2人を軸に、見出し...


生成結果がこちら。


おおむね、3.0で再現できなかったタグは基本的に3.1でも失敗しているようですが、プロンプトの純粋性が違っているように見えます。というのは、3.0では1girlにプラスされたポーズ指定によって、女の子の特徴自体も大きく変化しており、例えば「pow pose」(招き猫ポーズ)では明らかにコスチュームまで含めて猫娘になってしまっています。一方、3.1の方も猫娘方向に変化はしているのですが、よく見るとおおむね黒い服を着た黒髪のキャラクターを軸にしていることが分かり、3.0よりもポーズ以外の要素の影響が少ないように見えます。


ただ、これはPPにクォリティタグを入れているため、「masterpiece」などに由来した画風固定効果である可能性が高いです。他の違いを見ると、さほど劇的な違いはないとはいえ、指の描写力は3.1にわずかに軍配が上がる印象がありますね。特にパースの利いた構図で崩壊しにくい点は強みと言えるかなと思います。


再現可能なキャラクター・作品は大幅拡充か

これは一例にすぎませんが、キャラクターの学習は「3.1」の方が明らかに進んでいます。3.0では全く学習していなかったキャラクターも、NovelAIv3ほどではありませんが、LoRAなしでかなり再現ができるようです。


キャラクターや登場作品にもよると思いますので、一概には言えませんが、3.0で生成できなかったキャラクターが複数再現できるようになっているのを確認しました。この点が「0.1」分の違いとして最も大きいポイントかもしれません。


なお、上のツイートのような例が多かったため、衣装の正確性が低いのかと当初は思っていましたが、そうではありませんでした。実はタグ付けがかなりうまくいっているようで、「asticassia school uniform」や「plugsuit」などと専用の衣装名タグを使うことでより正確な再現が可能でした。逆に言えば、指定していないのにその服装が出ることが避けやすいわけで、別衣装への着替えが容易ということでもあるでしょう。


NovelAIv3と同様に相当公式の画風に寄った生成例も紹介されています。いつものことですが、生成結果が既存の著作物と類似性を帯びていないか注意しつつ使うことが求められそうです。


総評

大急ぎで見てきましたが、おおむね「生成精度の向上は劇的というほどではないが、再現できるキャラクターの幅はかなり広範になっている」という、まさに「4.0ではないものの3.1として十分」な印象でした。依然としてNovelAIv3の優位は揺らがないものの、一歩ずつにじりよって来ている感じのあるアップデートだと感じました。「マスピ顔」の違いとしては、AnimagineXL3はちょっと目が小さく離れがちだったきらいがありましたが、3.1はそのあたりも改善されているように感じます。


少し気になったのは、手の描写がより向上した半面、「怖い」感じの手になる…つまり、フォトリアルを感じさせる手に近づいている印象があり、アニメキャラクターとなじまないときがある点です。また、こちらに手を伸ばしたときに被写界深度やパースが強く掛かる傾向にあり、手前がボケるのもやや気になりました。リアルと言えばそうなのですが、アニメ調モデルでこうしたボカシはあまり自然に見えないことも多いので、ネガティブで「bokeh」や「depth of field」あたりを入れて回避した方がよいかもしれません。


こちらは3.0と3.1で生成したミナちゃんの違い。

性能面の変化は劇的ではないし、ガチャしているとどっちが優れているかすぐ分からなくなるので、過度の期待は禁物かもしれませんね。


そんなわけで、「AnimagineXL3.1最速レビュー 何が変わった?同条件生成で3.0と徹底比較」でした。SDXL系はキャラ再現LoRAの充足がSD1.5系に比べてまだまだですので、キャラ再現したい方にとって「3.1」はかなりありがたい存在になりそうです。SDXL系のアニメ調モデルでは、最近pony diffusion系が注目されており、特にNSFW再現においては屈指の有用性を誇っているようです。プロンプト指示がかなりピーキーではあるものの、AnimagineXL系と双璧を成す人気ぶりですので、併せてチェックしてみると良いでしょう。


二つのモデルを中心にマージモデルが隆盛し、1.5系のように盛り上がっていくと良いですね。また、SD3.0も近くリリースされるようですので、そちらも注目です。


それではまた近いうちに。スタジオ真榊でした。


▽おまけのパワーちゃん。ツリーにプロンプト貼っておきました





Files

Comments

さのけん

私も先ほど気が付いて生成テスト中でした。 主にLoveLive!でテストしていますが推奨プロンプトだと3.0に比べて微妙な感じ(特に制服のディテール)なので自分なりの調整は必要そうですね。

スタジオ真榊

キャラクターの固有衣装は、対応したタグを入力しないと生成しない方向に学習しているみたいですね。danbooruでタグを探すとうまくいくかもしれません。

さのけん

very aesthetic, absurdres を外したら多少ましになりました。 制服のタグは入れていますが3.0でも多少おかしくなることがあったので、制服タグ&Taggerで詳細を追記した方が良いかもしれませんね。