
基本信息:
- 专利标题: 多模态引导的渐进式图像生成方法
- 申请号:CN202510369207.4 申请日:2025-03-27
- 公开(公告)号:CN119888015A 公开(公告)日:2025-04-25
- 发明人: 庄连生 , 郭欣然
- 申请人: 中国科学技术大学
- 申请人地址: 安徽省合肥市金寨路96号
- 专利权人: 中国科学技术大学
- 当前专利权人: 中国科学技术大学
- 当前专利权人地址: 安徽省合肥市金寨路96号
- 代理机构: 北京鼎泰华创专利代理有限公司
- 代理人: 曾勇
- 主分类号: G06T11/60
- IPC分类号: G06T11/60 ; G06T5/70 ; G06T5/50 ; G06T5/60 ; G06N3/045
摘要:
本发明涉及图像处理领域,具体涉及一种多模态引导的渐进式图像生成方法,包括:为接收数据生成多模态的特征;通过噪声采样和多模态特征融合方法,利用布局去噪网络为每个主体对象生成层最终布局;通过反演算法提取参考图像的潜在编码,结合层文本编码经稳定扩散模型迭代去噪,提取参考键值矩阵;将初始噪声、层最终布局、多模态的特征及参考键值矩阵输入分层扩散模型,经多步去噪后通过解码生成主体透明图层;将所有主体透明图层叠加形成混合图像后,基于全局文本编码驱动图像恢复网络生成目标图像。本发明解决了现有方法在处理复杂场景时的缺陷;确保了生成的图像在全局和局部都能与文本描述保持一致。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06T | 一般的图像数据处理或产生 |
------G06T11/00 | 两维(2D)图像的发生,例如从一个绘图到一个位像图 |
--------G06T11/60 | .编辑图形和文本,组合图形或文本 |