国庆AIGC小结 | luxinfeng’s home

type

status

date

summary

slug

📝 学习总结

国庆期间，主要都是学习了关于图像方面的AIGC的资料，自己深度使用了Midjourney这个工具。之前也使用过Midjourney，但是只是简单的尝试了一下，并没有什么目的。所以体验不出Midjourney的优缺点。

在深度体验后，发现Midjourney还是存在一些局限性的，比如无法理解句子间的逻辑、句子较长时无法理解全部内容等，即使是同一段Prompt，seed不同的情况下也会出现较大的差异。如果想实现自动化去生成图片然后进行一系列处理的话，成功率还是很低的。同时，针对不同的Midjourney模型，一些关键词的效果也不同。

实测下来，Niji5这个模型对Prompt的逻辑理解能力有些稍弱，虽然生成的画面比较精美，且偏向于二次元。Midjourney v5.1和v5.2两个模型对Prompt的逻辑理解能力都还可以，但是5.2生成的效果更加艳丽。整体来看，各个模型都有自己的特点，可以根据自己的情况选择合适的一款。但是无论选择哪一款，都需要人工参与调整。以下面这个Prompt为例，可以看下不同的模型效果以及对Prompt理解能力（包含最新的Dalle-3）。

Prompt内容

Niji-5

MidJourney V5.1

MidJourney V5.2

Dalle-3

从以上结果中可以看到，Dalle3和V5.1对Prompt的逻辑理解要更好一些。

考虑到Midjourney的局限性，因此开始考虑使用stable diffusion。stable diffusion是一个开源模型，初始模型的生成效果虽然不如Midjourney，但是我们可以使用lora对基础模型进行训练微调，微调后的模型生成效果相比Midjourney会更加稳定一些。

因此又开始安装、学习stable diffusion这个工具，然后自己手动构造了少量的训练样本（原始数据来源于Midjourney，并进行了一些处理工作），参考秋叶大佬的Wiki进行了Lora训练测试，使用的是自己之前淘换的P40显卡。实测下来，使用512*512的图片进行训练，速度还是可以接受的，而且batch_size还可以调大一些，调整到4的时候，实际显存占用11G左右。

训练完成后，测试发现模型有些过拟合了，生成的图片缺乏多样性，但是整体而言确实要稳定一点。看来还是需要多增加一些训练样本，然后再重新训练。

📎 参考文章

OPS 提示词工作室 | 可视化编辑提示词 | 一键翻译 AIGC 提示词 | Midjourney 提示词 | OpenPromptStudio made by Moonvy 月维

【lora评测12】用stable diffusion画原神q版表情包 - 知乎 (zhihu.com)

Civitai | Share your models(stable diffusion模型下载网站)

超详细！外婆都能看懂的Stable Diffusion入门教程 - 优设网 - 学设计上优设 (uisdc.com)