Home Artists Posts Import Register

Content

とりあえずlora作りはいったん中断しようかなと思い、これまでの纏めとして。 〇正則化画像 正則化の役割は、前回記事の推測は概ね間違っていない印象。 結論としては、 メリット ・学習に使用したモデルへの依存度が下がる  →特定の絵柄の過学習を低減できる ・教師データへの依存度が下がる(学習して欲しくない要素の過学習が抑制できる)  →教師データで学習していない構図での作画崩れが軽減できる デメリット ・正則化画像の収集が大変 ・教師データの再現度が下がる  →「学習して欲しい要素」の学習もある程度低減されるため ・調整がさらに大変になる  →「教師データ」と「正則化データ」の調整が要る(気がする)ため、学習の精度に関わる変数が増える kohyaさんの説明では「一人のキャラを再現する場合は正則化不要」とされているが、そのloraで何をしたいかが重要な気がします。立っている画像で、簡単なポーズや着せ替えだけ良いなら正則化はなしで十分(着せ替えたいなら、おそらく教師データの服装を分散させるべき)。 一方、特殊な構図を取らせるなど汎用性を求める場合には、正則化の有無で質がかなり変わる印象。 また、前回記事の推測通り、学習に使ったモデルへの依存度も減るようなので、総合して画風などの影響は低減されるのは間違いなさそう。 ちなみに、正則化データ群を「negative easyの有無」に分けて検証してみたところ、negative easyなしで作った画像群のほうが良い結果が得られました。というか、negative easyありの画像群だと問題が起きる。おそらく、negative easyの効果が二重に影響してしまうことになるため。 〇設定値関係 ・dim/alpha dimが学習データの次元数らしい。alphaは学習率に関わるといわれているが、諸説あり過ぎてもはやんにゃぴ。 dim64 alpha64と、dim32 alpha32だと、後者のほうが学習は遅れる印象はある。過学習対策にdimを下げる、なんて話もあるが、データの次元数だとすれば、過学習対策は「データ量を下げたことによる結果的な現象」に過ぎないと思われる。64/64でデータが144mbになるようで(ほかの設定によるかも?)、ほとんどのloraがそれ以下なので、それ以上に上げる必要はなさそう。 ・学習モデル 出回っているものだと、ほぼACertainty一択。 AOMとか7th animeなどはモデル自体の絵柄が強すぎるので、教師データの学習前にモデルの癖を学習してしまう。ACertaintyならそうならないわけではないが、学習用だけあって、影響は少ない印象。また、環境によるかもしれないが、ACertaintyと他では学習の速さが変わる模様。厳密な比較はしていないが、ACertaintyだと500stepほどで学習した水準が、他のモデルの1500stepほどと同じ程度だった。学習が早すぎるなら学習率を落とせば良いので、基本的にはメリットしかないと思われる。 ただ、アニメ的なキャラクターは、あえて7th animeで学習させる、といった工夫はアリかもしれない。 ・教師画像について 66枚集めたものを使っていたが、特定の教師画像の影響が出すぎることはなかった印象。ただ、精度の高いloraのメタデータをみると、250枚くらい使っているものもちらほら。 ただ、50枚程度でも制度の悪くないloraはあるので、大事ではあるが、本質的な要素ではなさそうにも思われる。 検証はしていないが、正則化をするなら切り抜きはあまりしなくても良いのでは、という気がする。というのも、正則化画像自体を作るときに「white background」などを入れれば白背景のものが用意できるので、白バックを正則化で学ばせれば教師データに多少混じってて、最終的に混ざるならいいのではないかと。 教師データで重要な要素は、「学ばせたい要素が入っているもの」が良いと思われる。当たり前のように思えるが、意外と人間の感覚は雑だったりします。アニメキャラの「アホ毛」など、描かれていなくとも人間的には意外と違和感がなく、その感覚で画像を集めるとAIは当然、存在しないものなので学習しない、という結果になりかねない。 逆に、教師データの美的な質は区別しなくてもいいのかも? どうせnegative easyで綺麗にするのだから、むしろ混ざってるほうが良い可能性までありそう。

Files

Comments

No comments found for this post.