知方号

知方号

EasyPhoto:您的个人 AI 照片生成器<代码头像生成软件>

稳定扩散 Web 用户界面(或 SD-WebUI)是稳定扩散模型的综合项目,它利用 Gradio 库提供浏览器界面。 今天,我们将讨论 EasyPhoto,一个创新的 WebUI 插件,使最终用户能够生成 AI 肖像和图像。 EasyPhoto WebUI插件使用各种模板创建AI肖像,支持不同的照片风格和多种修改。 此外,为了进一步增强EasyPhoto的功能,用户可以使用SDXL模型生成图像,以获得更令人满意、更准确和多样化的结果。 让我们开始。

EasyPhoto 和稳定扩散简介

稳定扩散框架是一种流行且强大的基于扩散的生成框架,开发人员使用它来根据输入文本描述生成逼真的图像。 由于其功能,稳定扩散框架拥有广泛的应用,包括图像外绘、图像修复和图像到图像转换。 Stable Diffusion Web UI(或 SD-WebUI)是该框架最流行和最知名的应用程序之一。 它具有基于 Gradio 库构建的浏览器界面,为稳定扩散模型提供交互式且用户友好的界面。 为了进一步增强图像生成的控制和可用性,SD-WebUI 集成了许多稳定扩散应用程序。

由于 SD-WebUI 框架提供的便利,EasyPhoto 框架的开发人员决定将其创建为 Web 插件,而不是成熟的应用程序。 与经常遭受身份丢失或在图像中引入不切实际特征的现有方法相比,EasyPhoto 框架利用稳定扩散模型的图像到图像功能来生成准确且真实的图像。 用户可以轻松地将 EasyPhoto 框架安装为 WebUI 中的扩展,从而增强用户友好性和更广泛用户的可访问性。 EasyPhoto 框架允许用户生成以身份为导向的、高质量的、 逼真的AI肖像 与输入身份非常相似。

首先,EasyPhoto 框架要求用户通过上传一些图像来创建自己的数字分身,以在线训练面部 LoRA 或低阶适应模型。 LoRA框架利用低秩适应技术快速微调扩散模型。 这个过程使得基础模型能够了解特定用户的ID信息。 然后将经过训练的模型合并并集成到基线稳定扩散模型中以进行干扰。 此外,在干扰过程中,该模型使用稳定的扩散模型尝试重新绘制干扰模板中的面部区域,并使用各种ControlNet单元验证输入和输出图像之间的相似性。 

EasyPhoto 框架还部署了两阶段扩散过程来解决边界伪影和身份丢失等潜在问题,从而确保生成的图像最大限度地减少视觉不一致,同时保持用户的身份。 此外,EasyPhoto框架中的干扰管道不仅限于生成人像,还可以用于生成与用户ID相关的任何内容。 这意味着一旦你训练了 LoRA模型 对于一个特定的ID,你可以生成大量的AI图片,因此它可以有广泛的应用,包括虚拟试穿。 

总结一下,EasyPhoto框架

提出了一种新颖的方法来训练 LoRA 模型,通过合并多个 LoRA 模型来保持生成图像的面部保真度。 利用各种强化学习方法来优化面部身份奖励的 LoRA 模型,进一步有助于增强训练图像和生成结果之间的身份相似度。 提出了一种基于修复的双阶段扩散过程,旨在生成具有高美感和相似度的人工智能照片。 EasyPhoto:架构与培训

下图展示了EasyPhoto AI框架的训练流程。 

可以看出,该框架首先要求用户输入训练图像,然后进行人脸检测以检测人脸位置。 一旦框架检测到面部,它就会使用仅关注面部区域的预定义特定比例来裁剪输入图像。 然后,该框架部署皮肤美化和显着性检测模型,以获得干净清晰的面部训练图像。 这两个模型对于增强人脸的视觉质量起着至关重要的作用,同时也确保背景信息已被去除,并且训练图像主要包含人脸。 最后,该框架使用这些处理后的图像和输入提示来训练 LoRA 模型,从而使其具备更有效、更准确地理解用户特定面部特征的能力。 

此外,在训练阶段,该框架包括一个关键的验证步骤,其中框架计算用户输入图像与经过训练的 LoRA 模型生成的验证图像之间的面部 ID 差距。 验证步骤是一个基本过程,在实现 LoRA 模型的融合中发挥着关键作用,最终确保 训练有素的 LoRA 框架 转变为分身,或用户的精确数字表示。 另外,具有最佳face_id分数的验证图像将被选择作为face_id图像,并且该face_id图像将被用于增强干扰生成的身份相似度。 

接下来,基于集成过程,该框架以似然估计为主要目标来训练 LoRA 模型,而保留面部身份相似性是下游目标。 为了解决这个问题,EasyPhoto 框架利用强化学习技术直接优化下游目标。 因此,LoRA 模型学习的面部特征显示出改进,从而导致模板生成的结果之间的相似性增强,并且还展示了跨模板的泛化能力。 

干扰过程

下图演示了EasyPhoto框架中单个User ID的干扰过程,分为三个部分

人脸预处理 用于获取 ControlNet 参考和预处理的输入图像。 第一次扩散 这有助于生成类似于用户输入的粗略结果。 第二次扩散 修复了边界伪影,从而使图像更准确,看起来更真实。 

对于输入,该框架采用一个face_id图像(在训练验证期间使用最佳face_id分数生成)和一个干扰模板。 输出是高度详细、准确且真实的用户肖像,并且基于推断模板与用户的身份和独特外观非常相似。 让我们详细看看这些过程。

人脸预处理

一种无需有意识推理的基于干扰模板生成AI人像的方法是使用SD模型对干扰模板中的面部区域进行修复。 此外,在流程中添加ControlNet框架不仅增强了用户身份的保存,还增强了生成的图像之间的相似性。 然而,直接使用 ControlNet 进行区域修复可能会带来潜在问题,其中可能包括

输入和生成的图像之间不一致: 很明显,模板图像中的关键点与face_id图像中的关键点不兼容,这就是为什么使用ControlNet以face_id图像作为参考会导致输出不一致的原因。 修复区域的缺陷: 遮盖一个区域,然后用新面修复它可能会导致明显的缺陷,特别是沿着修复边界,这不仅会影响生成图像的真实性,还会对图像的真实感产生负面影响。 控制网络造成的身份丢失: 由于训练过程不使用 ControlNet 框架,因此在干扰阶段使用 ControlNet 可能会影响训练后的 LoRA 模型保留输入用户 ID 身份的能力。 

为了解决上述问题,EasyPhoto 框架提出了三个过程。 

对齐并粘贴: EasyPhoto框架通过使用面部粘贴算法,旨在解决人脸ID和模板之间的面部标志不匹配的问题。 首先,模型计算face_id和模板图像的面部标志,随后模型确定将用于将模板图像的面部标志与face_id图像对齐的仿射变换矩阵。 生成的图像保留了face_id图像的相同地标,并且还与模板图像对齐。 面部保险丝: Face Fuse 是一种新颖的方法,用于校正掩模修复导致的边界伪影,它涉及使用 ControlNet 框架对伪影进行校正。 该方法使 EasyPhoto 框架能够确保保留和谐的边缘,从而最终指导图像生成的过程。 人脸融合算法进一步融合了roop(地面真实用户图像)图像和模板,这使得生成的融合图像能够表现出更好的边缘边界稳定性,从而在第一个扩散阶段产生增强的输出。 ControlNet 引导验证: 由于 LoRA 模型没有使用 ControlNet 框架进行训练,因此在推理过程中使用它可能会影响 LoRA 模型保留身份的能力。 为了增强EasyPhoto的泛化能力,该框架考虑了ControlNet框架的影响,并融合了不同阶段的LoRA模型。 第一次扩散

第一个扩散阶段使用模板图像生成具有类似于输入用户 ID 的唯一 ID 的图像。 输入图像是用户输入图像和模板图像的融合,而校准的面罩是输入面罩。 为了进一步增强对图像生成的控制,EasyPhoto框架集成了三个ControlNet单元,其中第一个ControlNet单元专注于融合图像的控制,第二个ControlNet单元控制融合图像的颜色,最后一个ControlNet单元是openpose替换图像的(实时多人人体姿态控制)不仅包含模板图像的面部结构,还包含用户的面部身份。

第二次扩散

在第二个扩散阶段,面部边界附近的伪影被细化和微调,同时为用户提供了屏蔽图像中特定区域的灵活性,以试图增强该专用区域内的生成效率。 在此阶段中,框架将从第一扩散阶段获得的输出图像与环图像或用户图像的结果融合,从而生成第二扩散阶段的输入图像。 总的来说,第二扩散阶段在提高整体质量和生成图像的细节方面起着至关重要的作用。 

多用户 ID

EasyPhoto的一大亮点就是支持生成多个用户ID,下图展示了EasyPhoto框架中多用户ID的干扰处理流程。 

为了支持多用户 ID 生成,EasyPhoto 框架首先对干扰模板进行人脸检测。 然后,这些干扰模板被分成许多掩模,其中每个掩模仅包含一张脸,图像的其余部分被白色掩模,从而将多用户 ID 生成分解为生成单个用户 ID 的简单任务。 一旦框架生成用户 ID 图像,这些图像就会合并到推理模板中,从而促进模板图像与生成的图像的无缝集成,最终产生高质量的图像。 

实验和结果

现在我们已经了解了EasyPhoto框架,接下来我们就来探讨一下EasyPhoto框架的性能。 

上面的图像是由 EasyPhoto 插件生成的,它使用基于 Style 的 SD 模型来生成图像。 可以看出,生成的图像看起来很真实,而且非常准确。 

上面添加的图像是由 EasyPhoto 框架使用基于漫画风格的 SD 模型生成的。 可以看出,漫画照片和写实照片看起来都非常逼真,并且与用户提示或要求的输入图像非常相似。 

下面添加的图像是由 EasyPhoto 框架使用多人模板生成的。 可以清楚地看到,生成的图像清晰、准确,与原始图像相似。 

在 EasyPhoto 的帮助下,用户现在可以生成各种 AI 肖像,或使用保留的模板生成多个用户 ID,或使用 SD 模型生成推理模板。 上面添加的图像展示了 EasyPhoto 框架生成多样化、高质量 AI 图片的能力。

结论

在这篇文章中,我们讨论了 EasyPhoto,一个 新颖的WebUI插件 允许最终用户生成人工智能肖像和图像。 EasyPhoto WebUI插件使用任意模板生成AI肖像,目前EasyPhoto WebUI的含义支持不同的照片风格,以及多种修改。 此外,为了进一步增强EasyPhoto的功能,用户可以灵活地使用SDXL模型生成图像,以生成更令人满意、更准确、

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。