LCM模型的介绍与应用

Latent Consistency Models,简称LCM,也叫做潜在一致性模型。该理论最早由清华大学提出以Stable Diffusion为代表的LDM潜在扩散模型, 由于迭代和采样过程中需要大量的计算,生成图像的速度非常缓慢。而LCM只需四步推理,就可以完成图像生成工作,效率比LDM模型提升5到10倍,基本可以实现实时图像生成。基于LCM的LCM lora模型在近期发布,可以实现图像的实时编辑和生成。

这是Github上的LCM模型:Latent Consistency Models: Synthesizing High-Resolution Images with Few-step Inference (latent-consistency-models.github.io),页面下方有演示视频,感兴趣的朋友可以观看一下。

例如,LCM Draw工具可以帮我们实时在线绘图。在最上方输入提示close-up picture of a ainme girl,确定人物的形象,然后在左侧绘制人物的轮廓右侧就会实时生成效果图。开启调色板工具,选择一种色彩,右侧人物的眼睛颜色也会随之改变。

然后更换提示词,也就是super woman的全身照,在左侧绘制草图,右侧就会实时生成图像。目前,该程序暂时没有提供更多的模型和线稿上传功能。点击链接就可以在google colab体验该工具:latent_consistency_model_colab.ipynb – Colaboratory (google.com)。等待出现如下链接:running on local/public URL,说明部署完毕,点击后即可本地尝试。

在提示词后方加入pink hair、blue hair词条,右侧人物也会实时完成头发眼睛颜色的替换。从多组测试可以看出,LCM模型基本可以实现实时图像生成。不过,根据显卡的性能也会出现不同程度的延迟。然后点击运行LCM controlnet canny draw colab脚本,该工具可以完成图像实时着色。上传两个视频直观的看一下效果:

关于代码的位置和替换的方法,camenduru已经在github页面中详细讲解。有了该工具我们就可以上传任意的漫画完成一键上色,操作非常简单,如果不满意还可以进行实时修改。LCM还支持手绘线稿图,右侧可以实时生成图像,大家可以自行尝试。

此外LCM还能实现快速视频转视频,选择Video2Video模式,点击运行按钮,LCM就会根据视频的持续时长对每一帧进行重绘。在加入IP adapter预处理器后,还可以实现图像的实时风格迁移。本周ilumine也在huggingface上发布了一个名为LCM Painter的实时绘图工具,LCM Painter的功能更加齐全响应速度也非常快。

在对话框中输入提示:Astronaut riding a rainbow unicorn through & nebula, with planetsm galaxies and shooting stars in the background。翻译为:骑着彩虹独角兽穿越星云的宇航员,背景是行星星系和流星。对该图像进行路径绘画,则图像会实时呈现画布在上,效果类似于:写一个NVIDIA canvas使用教程 | 高治中的个人空间 (xinyixx.com)

不过很多网友反映LCM生成的图像具有很强的朦胧感,效果一般。把绘制好的图像作为参考,输入相同的提示词就可以实现以以图生图,在此基础上生成更为精致的图像。还有网友尝试使用LCM进行直播,上传一张参考图就可以基本实现低帧率的实时换脸。可以预见的是随着LCM模型的优化,低延迟实时换脸将会变得更加简单。

此外dMiguelm还尝试了不同的动作,直播画面基本可以实现同步。目前基于LCM开发的实时图像绘制工具有很多种,其中最好用的就是KREA。加入等待列表就有机会第一时间体验该工具。

发表回复