lora作りのメモ (Pixiv Fanbox)

Published:

2023-04-11 12:21:21

Imported:

2023-06

Content

とりあえずlora作りはいったん中断しようかなと思い、これまでの纏めとして。〇正則化画像正則化の役割は、前回記事の推測は概ね間違っていない印象。結論としては、メリット・学習に使用したモデルへの依存度が下がる　→特定の絵柄の過学習を低減できる・教師データへの依存度が下がる（学習して欲しくない要素の過学習が抑制できる）　→教師データで学習していない構図での作画崩れが軽減できるデメリット・正則化画像の収集が大変・教師データの再現度が下がる　→「学習して欲しい要素」の学習もある程度低減されるため・調整がさらに大変になる　→「教師データ」と「正則化データ」の調整が要る（気がする）ため、学習の精度に関わる変数が増える kohyaさんの説明では「一人のキャラを再現する場合は正則化不要」とされているが、そのloraで何をしたいかが重要な気がします。立っている画像で、簡単なポーズや着せ替えだけ良いなら正則化はなしで十分（着せ替えたいなら、おそらく教師データの服装を分散させるべき）。一方、特殊な構図を取らせるなど汎用性を求める場合には、正則化の有無で質がかなり変わる印象。また、前回記事の推測通り、学習に使ったモデルへの依存度も減るようなので、総合して画風などの影響は低減されるのは間違いなさそう。ちなみに、正則化データ群を「negative easyの有無」に分けて検証してみたところ、negative easyなしで作った画像群のほうが良い結果が得られました。というか、negative easyありの画像群だと問題が起きる。おそらく、negative easyの効果が二重に影響してしまうことになるため。〇設定値関係・dim/alpha dimが学習データの次元数らしい。alphaは学習率に関わるといわれているが、諸説あり過ぎてもはやんにゃぴ。 dim64 alpha64と、dim32 alpha32だと、後者のほうが学習は遅れる印象はある。過学習対策にdimを下げる、なんて話もあるが、データの次元数だとすれば、過学習対策は「データ量を下げたことによる結果的な現象」に過ぎないと思われる。64/64でデータが144mbになるようで（ほかの設定によるかも？）、ほとんどのloraがそれ以下なので、それ以上に上げる必要はなさそう。・学習モデル出回っているものだと、ほぼACertainty一択。 AOMとか7th animeなどはモデル自体の絵柄が強すぎるので、教師データの学習前にモデルの癖を学習してしまう。ACertaintyならそうならないわけではないが、学習用だけあって、影響は少ない印象。また、環境によるかもしれないが、ACertaintyと他では学習の速さが変わる模様。厳密な比較はしていないが、ACertaintyだと500stepほどで学習した水準が、他のモデルの1500stepほどと同じ程度だった。学習が早すぎるなら学習率を落とせば良いので、基本的にはメリットしかないと思われる。ただ、アニメ的なキャラクターは、あえて7th animeで学習させる、といった工夫はアリかもしれない。・教師画像について 66枚集めたものを使っていたが、特定の教師画像の影響が出すぎることはなかった印象。ただ、精度の高いloraのメタデータをみると、250枚くらい使っているものもちらほら。ただ、50枚程度でも制度の悪くないloraはあるので、大事ではあるが、本質的な要素ではなさそうにも思われる。検証はしていないが、正則化をするなら切り抜きはあまりしなくても良いのでは、という気がする。というのも、正則化画像自体を作るときに「white background」などを入れれば白背景のものが用意できるので、白バックを正則化で学ばせれば教師データに多少混じってて、最終的に混ざるならいいのではないかと。教師データで重要な要素は、「学ばせたい要素が入っているもの」が良いと思われる。当たり前のように思えるが、意外と人間の感覚は雑だったりします。アニメキャラの「アホ毛」など、描かれていなくとも人間的には意外と違和感がなく、その感覚で画像を集めるとAIは当然、存在しないものなので学習しない、という結果になりかねない。逆に、教師データの美的な質は区別しなくてもいいのかも？　どうせnegative easyで綺麗にするのだから、むしろ混ざってるほうが良い可能性までありそう。

Content

Files