感谢本站网友 华南吴彦祖、软媒用户1392612 的线索投递!
刚刚,OpenAI 深夜直播,GPT-4o 的原生图像生成大升级!奥尔特曼亲自上阵组队,演示了自拍变梗图、相对论漫画等功能,不过相对隔壁谷歌发布的新模型,OpenAI 的这波动作着实有点不够看。
就在谷歌刚刚扔出地表最强模型 Gemini 2.5 Pro 不久,OpenAI 也有动作了。
奥尔特曼亲自带队,展示了 GPT-4o 图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。
目前,这项功能已经在 ChatGPT 和 Sora 中,向所有 Plus、Pro、Team 和免费用户推出。
这个过程,就体现了 4o 作为全能模型的强大能力。
因为它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。
用 OpenAI 的话说,「我们终于迈向了这种真正集成的多模态模型」。
接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。
这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。
注意,这个过程中,模型很可能利用了自己的世界知识,对提示词进行了扩展。
最后一个演示,是基于此前几人生成的内容,制作一个纪念币。
而且,还要求图使用了一个特殊的十六进制代码,且加上生成图像的文本和日期。
模型之所以精准完成这样复杂的要求,是因为它是用非自回归的方式训练的,因此它能够理解上下文中的文本和多张图片,以非常和谐的方式在纪念币上呈现出来。
和 GPT-4o 聊天,定制各种图像