心情随笔
🗒️国庆AIGC小结
00 分钟
2023-10-6
2024-6-29
type
status
date
summary
slug
tags
category
password
URL
icon
😀
2023年中秋国庆期间,除了30、1号两天参加朋友的婚礼外,其余几天都在家休息,因此有时间做一些自己喜欢的事情。
 

📝 学习总结

国庆期间,主要都是学习了关于图像方面的AIGC的资料,自己深度使用了Midjourney这个工具。之前也使用过Midjourney,但是只是简单的尝试了一下,并没有什么目的。所以体验不出Midjourney的优缺点。
在深度体验后,发现Midjourney还是存在一些局限性的,比如无法理解句子间的逻辑、句子较长时无法理解全部内容等,即使是同一段Prompt,seed不同的情况下也会出现较大的差异。如果想实现自动化去生成图片然后进行一系列处理的话,成功率还是很低的。同时,针对不同的Midjourney模型,一些关键词的效果也不同。
实测下来,Niji5这个模型对Prompt的逻辑理解能力有些稍弱,虽然生成的画面比较精美,且偏向于二次元。Midjourney v5.1v5.2两个模型对Prompt的逻辑理解能力都还可以,但是5.2生成的效果更加艳丽。整体来看,各个模型都有自己的特点,可以根据自己的情况选择合适的一款。但是无论选择哪一款,都需要人工参与调整。以下面这个Prompt为例,可以看下不同的模型效果以及对Prompt理解能力(包含最新的Dalle-3)。

Prompt内容

 

Niji-5

notion image
 

MidJourney V5.1

notion image

MidJourney V5.2

notion image

Dalle-3

notion image
从以上结果中可以看到,Dalle3和V5.1对Prompt的逻辑理解要更好一些。
 
考虑到Midjourney的局限性,因此开始考虑使用stable diffusion。stable diffusion是一个开源模型,初始模型的生成效果虽然不如Midjourney,但是我们可以使用lora对基础模型进行训练微调,微调后的模型生成效果相比Midjourney会更加稳定一些。
因此又开始安装、学习stable diffusion这个工具,然后自己手动构造了少量的训练样本(原始数据来源于Midjourney,并进行了一些处理工作),参考秋叶大佬的Wiki进行了Lora训练测试,使用的是自己之前淘换的P40显卡。实测下来,使用512*512的图片进行训练,速度还是可以接受的,而且batch_size还可以调大一些,调整到4的时候,实际显存占用11G左右。
训练完成后,测试发现模型有些过拟合了,生成的图片缺乏多样性,但是整体而言确实要稳定一点。看来还是需要多增加一些训练样本,然后再重新训练。

📎 参考文章

 
上一篇
Java-Agent失效问题
下一篇
Milvus向量数据库常见用法