当前快报:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
机器之心报道
(相关资料图)
编辑:小舟、梓文
扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4 或许能帮上忙。
文本到图像生成领域近两年取得了很大的突破,从 GAN 到 Stable Diffusion,图像生成的速度越来越快,生成效果越来越好。然而,AI 模型生成的图像在细节上还有很多瑕疵,并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像,现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作,因此非常低效。
最近,来自加州大学伯克利分校(UC 伯克利)和微软研究院的研究者从编程的角度思考了这个问题。当前,用户能够使用大型语言模型较好地控制代码生成,这让该研究看到了编写程序来控制生成图像细节的可能,包括物体的形状、大小、位置等等。基于此,该研究提出利用大型语言模型(LLM)生成代码的功能实现可控型文本到图像生成。
论文地址:https://arxiv.org/pdf/2305.18583.pdf该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 ( c ) 所示,程序草图(programmatic sketch)是按照准确的文本说明绘制的,随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体,它能接受额外的输入,例如参考图像、分割图等等。这些草图会充当扩散模型的参考点,使扩散模型能够更好地理解空间关系和特殊概念,而不是仅仅依赖于文本 prompt。这种方法使得 prompt 工程和草图创建过程不再需要人为干预,并提高了扩散模型的可控性。
我们来看一下 Control-GPT 方法的具体细节。方法
对图像生成来说,训练过程的一个较大挑战是缺乏包含对齐文本和图像的数据集。为了解决这个难题,该研究将现有实例分割数据集(例如 COCO 和 LVIS)中的实例掩码转换为多边形的表示形式,这与 GPT-4 生成的草图类似。
然后,该研究构建了一个包含图像、文本描述和多边形草图的三元数据集,并微调了 ControlNet。该研究发现这种方法有助于更好地理解 GPT 生成的草图,并且可以帮助模型更好地遵循文本 prompt 指令。
ControlNet 是扩散模型的一种变体,它需要额外的输入条件。该研究使用 ControlNet 作为基础图像生成模型,并通过编程草图和 grounding token 的路径对其进行扩展。
框架
如下图 2 所示,在 Control-GPT 中,首先 GPT-4 会根据文本描述生成 TikZ 代码形式的草图,并输出图像中物体的位置。然后该研究用 LATEX 编译 TikZ 代码,将草图转换为图像格式,再将编程草图、文本描述和物体位置的 grounding token 提供给经过调优的 ControlNet 模型,最终生成符合条件的图像。
使用 GPT-4 生成的草图训练 ControlNet 是必要的,因为预训练的 ControlNet 不理解生成的草图,不能将其转换为现实图像。为了 prompt GPT-4,该研究要求用户遵循如下的 prompt 样本,以让 GPT-4 请求 TikZ 代码片段的结构化输出,以及相关物体的名称和位置。然后,该研究使用 GPT-4 的输出来编译草图图像并获得 grounding token。LLM 绘制草图的准确性如何Control-GPT 的精度取决于 LLM 生成草图时的准确性和可控性。因此,该研究对 LLM 在草图生成方面的性能进行了基准测试。实验结果表明 GPT 系列模型在草图生成方面明显优于 LLaMa 等开源模型,并且 GPT-4 在遵循文本指令方面表现出惊人的高准确性(约 97%)。
该研究对 Control-GPT 和一些经典模型的生成结果进行了人工评估,结果表明当图像中包含两个不相关的罕见物体组合时,一些模型的生成效果比较差,而 Control-GPT 的生成结果相对较好,如下表 2 所示:
查询 LLMs,生成一个 TikZ 代码片段来描述给定的文本,进而检查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多数代码片段都可以编译为有效的草图,而 LLaMA 和 Alpaca 的输出要么是空的,要么不可运行。在 GPT-series 模型中,最新的 GPT-4 在 95 个查询中只有 3 次失败,这些查询成功地生成了有效草图,在遵循文本指令方面的成功率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本,其性能明显低于原始 GPT-3.5。在调优过程中,聊天能力和代码生成之间可能存在着权衡。在下图 4 中,研究者提供了一个来自 GPT 系列模型的可视化草图例子。虽然生成的草图不如照片那样逼真,但它们往往能捕捉到语义,并正确推理出物体的空间关系。生成的草图经常出人意料地通过简单的代码片断来正确处理物体形状。下图最后一行展示了 GPT-4 的一个失败案例,即模型无法生成物体形状,而 GPT-3.5 却能给出一个正确的草图。GPT-4 在草图生成方面的高精度带来的启发是:可以使用它来提高图像生成模型的可控性。
实验基于 Visor 数据集,研究者对 Control-GPT 进行了一系列实验设置的评估,测试其在空间关系、物体位置和大小方面的可控性。他们还将评估扩展到多个物体和分布外的 prompt。广泛的实验表明,Control-GPT 可以大大提升扩散模型的可控性。
下表 3 中列出了定量评估结果。可以看到,Control-GPT 模型可以在给定的一些规格下更好地控制物体的大小和位置。与几乎无法控制物体位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 将总体精度从 0% 提高到 14.18%。与现成的 ControlNet 相比,Control-GPT 在所有指标上也取得了更好的表现,获得了从 8.46% 到 4.18% 的整体改善。这些结果展示了本文的 LLM 集成框架在更细化和精确控制图像生成过程方面的潜力。
视觉化。下图 6 展示了定性评估结果,可以看到,ControlGPT 可以按照物体位置和尺寸的规范绘制物体。相比之下,ControlNet 也能遵循,但却很难生成正确的物体,而 Stable Diffusion 则无法遵循规范。对空间关系的消融实验。研究者还探讨了模型是否对不同类型的空间关系(如左 / 右 / 上 / 下)有偏好,作为空间关系基准分析的一部分。从下表 4 中可以看出,Control-GPT 在 Visor Score 和物体准确性方面一直比所有的基线模型工作得更好。多个物体之间的关系。研究者对 Control-GPT 生成多个物体的能力进行了进一步的评估,这些物体的空间关系由 prompt 指定。下图 7 展示了一些例子,Control-GPT 能理解不同物体之间的空间关系,并在 GPT-4 的帮助下将它们放入布局中,表现出了更好的性能。可控性与图像逼真度。通常,在生成逼真图像与遵循精确布局之间往往存在着妥协,特别是对于分布外的文字 prompt。如下图 8 所示,(a)是一个例子,生成的图像完全遵循布局,但这导致了图像中的一些伪影;而在(b)中,照片往往看起来很逼真,但没有很好地遵循草图。更多研究细节,可参考原论文。THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
标签:
-
2022-02-07 14:57:45
奇迹!绝杀!女足亚洲杯逆转夺冠!<
刚刚,中国女足上演逆转绝杀奇迹!她们在亚洲杯决赛中3:2力克韩国队,时隔16年再夺亚洲杯冠军!
-
2022-02-07 14:57:45
中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<
新华社北京2月6日电(记者安蓓)国家发展改革委6日称,国家发展改革委主任何立峰与阿根廷外交、国际贸易和宗教事
-
2022-02-07 14:57:43
中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明(全文)<
新华社北京2月6日电中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明一、应中方邀请,阿根廷
-
2022-02-07 14:57:40
春节假期国内旅游出游2.51亿人次<
春节遇冬奥,旅游年味浓。根据文化和旅游部数据中心测算,2022年春节假期7天,全国国内旅游出游2 51亿人次,同比
-
2022-02-07 14:57:40
中吉签署关于经典著作互译出版的备忘录 开启两国人文交流互鉴新阶段<
新华社北京2月6日电(记者史竞男)国家主席习近平6日会见来华出席北京2022年冬奥会开幕式的吉尔吉斯斯坦总统扎帕
-
2023-05-31 18:59:36
当前快报:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
机器之心报道编辑:小舟、梓文扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4或许能帮上忙。文本到
-
2023-05-31 15:20:17
每日快报!小米将五款智能手机的保修期延长至两年
中国电子公司小米最近宣布,将在印度将其五款智能手机的保修期延长至两年。这对这些手机的所有者来说是个好
-
2023-05-31 14:37:28
国家税务总局沛县税务局:社保服务微信群打通答疑“快速路” 全球速讯
为高效便捷地服务于广大缴费人群体,国家税务总局沛县税务局通过建立网格化社保服务微信群,化解部门协作不
-
2023-05-31 14:10:17
中秋节的寓意及象征意义_中秋节的寓意
1、中秋节的习俗2、祭月。在我国是一种十分古老的习俗,实际上是古人对“月神”的一种崇拜活动。在古代有“
-
2023-05-31 13:43:42
咖喱牛肉豆腐家常做法?
步骤1牛肉和日本豆腐步骤2粉丝泡发好步骤3粉丝放水煮汤步骤4放入牛肉步骤5放入日本豆腐步骤6咖喱牛肉豆腐粉
-
2023-05-31 13:06:36
拼手速!呼和浩特一大批扩龄九价、四价HPV疫苗来啦! 世界观速讯
好消息!呼和浩特九价四价HPV疫苗又可以预约了今日10:00开始预约9-45周岁都可以预约哟话不多说直接来了解呼
-
2023-05-31 13:01:56
乘“舟”赴约,开启梦想新篇——神舟十六号载人飞行任务乘组出征侧记_世界信息
巴丹吉林沙漠腹地,弱水河畔。一段梦想,再度被谱写成壮丽的诗篇。千年之前,在离甘肃酒泉不远的敦煌莫高窟
-
2023-05-31 12:43:10
当前简讯:科创信息:截止2023年5月19日,公司股东人数为30,724人
科创信息30073005月31日在投资者关系平台上答复了投资者关心的问题投资者请问下最新一期股东人数谢谢科创信
-
2023-05-31 12:24:32
5月31日 11:20分 金太阳(300606)股价快速拉升
分时图快速拉升意味此时存在大单买入,在大单的推动下,股价快速地上涨。截止发稿,金太阳(300606)涨幅3
-
2023-05-31 11:55:55
最新:信用卡欠了十五万还不起了怎么办?网贷不能停息挂账吗?
信用卡欠了十五万还不起了怎么办?1、可以寻求家人朋友的帮助,借钱还上信用卡的逾期金额,以免违约金和
-
2023-05-31 11:11:21
伊朗最高领袖:伊朗欢迎与埃及恢复关系
央视新闻客户端5月29日,伊朗最高领袖哈梅内伊在与来访的阿曼领导人举行会晤时表示,伊朗欢迎与埃及恢复外
-
2023-05-31 10:50:27
【当前热闻】官宣!日本约战德国,冲刺2026世界杯,国足找来缅甸,输球=耻辱
以目前的实力来看,国足跟巴勒斯坦差距并不大,主要还是约到缅甸这样的鱼腩,让国内球迷真的看不下去。今日
-
2023-05-31 10:28:19
安徽省7人荣获全国创新争先奖 当前信息
记者5月30日从中国科学技术大学和省科学技术协会获悉,安徽省有7位科技工作者荣获第三届全国创新争先奖个人
-
2023-05-31 09:58:44
红烧牛肉的做法最正宗的做法_红烧牛肉怎么做正宗_环球热文
红烧牛肉的做法最正宗的做法,红烧牛肉怎么做正宗很多人还不知道,现在让我们一起来看看吧!1、牛肉600克,
-
2023-05-31 09:32:08
李鸿彬:5.31黄金逆势上涨,月线收官是涨还是跌?|环球热闻
把自己的欲望降到最低点,把自己的理性升华到最高点,投资之路不平直,行情会有许多拐点处。没有拐不过去的
-
2023-05-31 08:58:09
待我长发掉光,买下我可好?今夏这个路由器,618入手好时机! 环球新视野
如同“包子有肉不在褶上”,路由器的霸气侧漏也可以不用天线来撑着。但是,要想把路由器的那个几个“长发”
-
2023-05-31 08:26:23
网络图标显示红叉但是可以上网_网络图标显示红叉但可以上网
1、如果是无线网络,可以在电脑系统中重设无线网络:打开电脑后,点击“开始”->“运行”,输入“services
-
2023-05-31 08:05:03
建科院:公司不存在问题所述情形 世界今日报
建科院30067505月30日在投资者关系平台上答复了投资者关心的问题投资者你好请问公司的研发方向主要有哪儿些
-
2023-05-31 08:05:40
韩军方称朝鲜向南发射一颗“卫星” 首尔清晨听到警报声-全球热讯
首尔发布警告,要求市民为可能的疏散做好准备
-
2023-05-31 07:23:26
小米 14 曝光:直屏 + 边框 11 月发布
有消息称,小米14将在11月发布,而在外观方面小米14边框将会比iPhone更窄,屏幕为国产屏,实现了四边边框1m
-
2023-05-31 06:34:46
抖音上的侧颜西有没有女朋友-世界微速讯
相信大家对抖音都是非常的熟悉了吧,这是一个非常火的平台软件,上面不仅有帅哥美女,还有各行各业的人,抖
-
2023-05-31 06:08:37
世界动态:英伟达成首家市值破 万亿美元的芯片公司
DoNews5月30日消息,英伟达24日发布了第一季度财报,单季度净利润20 43亿美元(约144 64亿元人民币)远超预
-
2023-05-31 05:57:53
昆明市汤丹镇中河村:石头缝里种大米,荒滩改造变良田
改造前的荒滩 供图昆明市汤丹镇中河村位于镇政府驻地南面,属干热河谷气候,年平均气温21℃,年降水量700
-
2023-05-31 04:58:38
魔兽争霸3冰封王座战役店长推荐_魔兽争霸3冰封王座战役 当前视点
1、兽族战役:兽族大逃亡2、人类战役:洛丹伦大陆的灾难3、不死天灾:诅咒之路4、兽族战役:入侵卡利姆多5
-
2023-05-31 04:03:14
澳门科技大学 澳门科技大学怎么样
今天来聊聊关于澳门科技大学,澳门科技大学怎么样的文章,现在就为大家来简单介绍下澳门科技大学,澳门科技
-
2023-05-31 03:07:11
讴歌两厢车型和价位(讴歌两厢车有哪些?)-世界热文
相信大家对讴歌两厢车型和价位,讴歌两厢车有哪些?的问题都很疑惑,这个问题很多人还不知道怎么解决,现在
-
2023-05-31 01:46:33
尚德电力再提速!国企龙头强势加码,全场聚焦瞩目时刻-全球时快讯
把握未来,共谋发展!2023年5月26日,尚德电力母公司江苏顺风光电科技有限公司(以下简称“顺风光电”)与厦门建
-
2023-05-31 01:14:06
jmc房车多少钱一辆(jmc房车)
1、一、不同类型的房车按照车型、重量、长度与准驾车型对照表上的准驾车辆来区分所对应的驾照。2、1 自行式
-
2023-05-30 23:47:39
利亚德:公司虚拟现实板块正和ChatGPT等多家AI企业合作探索动作大模型的各类开发应用 全球快讯
利亚德(300296)今日在投资者互动平台表示,微软为公司Optitrack产品的客户。另外,公司虚拟现实板块正在和
-
2023-05-30 23:12:22
微星推出多款 QD-OLED 系列显示器
IT之家5月30日消息,微星在2023台北国际电脑展上推出了新款QD-OLED系列显示器以及27英寸MD272QXP显示器。微星MEG
-
当前快报:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
2023-05-31 18:59:36 -
每日快报!小米将五款智能手机的保修期延长至两年
2023-05-31 15:20:17 -
国家税务总局沛县税务局:社保服务微信群打通答疑“快速路” 全球速讯
2023-05-31 14:37:28 -
中秋节的寓意及象征意义_中秋节的寓意
2023-05-31 14:10:17 -
咖喱牛肉豆腐家常做法?
2023-05-31 13:43:42 -
拼手速!呼和浩特一大批扩龄九价、四价HPV疫苗来啦! 世界观速讯
2023-05-31 13:06:36 -
乘“舟”赴约,开启梦想新篇——神舟十六号载人飞行任务乘组出征侧记_世界信息
2023-05-31 13:01:56