DALL·E-3是我们DALL-E文本生成图像模型的最新版本。作为当前文本生成图像领域的最先进技术,DALL·E能够生成涵盖广泛领域的高质量图像。如果您对DALL·E-3构建的更多技术细节感兴趣,可以在我们的研究论文中了解更多。本文将介绍DALL·E-3的一些新功能和能力,以及您可以使用该API构建哪些新产品的示例。
提醒一下,图像生成API并未改变,仍保持与DALL·E-2相同的端点和格式。如需了解如何使用图像API的指南,请参阅Cookbook文章中的相关内容。
目前唯一可用于DALL·E-3的API端点是Generations (/v1/images/generations)。我们暂不支持变体或修复功能,不过Edits和Variations端点仍可用于DALL·E-2。
Generations
生成API端点可根据文本提示创建图像。我们新增了几个参数,以增强您使用我们的模型所能创作的内容。以下是选项的快速概览:
新参数:
- model ('dall-e-2' 或 'dall-e-3'): 这是您用于生成的模型。请注意将其设置为'dall-e-3',因为如果为空则默认为'dall-e-2'。
- style ('natural' 或 'vivid'): 生成图像的风格。必须是vivid或natural之一。Vivid会使模型倾向于生成超现实和戏剧化的图像。Natural会使模型产生更自然、不那么超现实的图像。默认为'vivid'。
- quality ('standard' 或 'hd'): 生成图像的质量。'hd'会创建细节更精细、整体一致性更高的图像。默认为'standard'。
其他参数:
- prompt (str): 所需图像的文本描述。最大长度为1000个字符。必填字段。
- n (int): 要生成的图像数量。必须介于1到10之间。默认为1。对于dall-e-3,仅支持n=1。
- size (...): 生成图像的尺寸。对于DALL·E-2模型,必须是256x256、512x512或1024x1024之一。对于DALL·E-3模型,必须是1024x1024、1792x1024或1024x1792之一。
- response_format ('url' 或 'b64_json'): 生成图像的返回格式。必须是 "url" 或 "b64_json" 之一。默认为 "url"。
- user (str): 代表终端用户的唯一标识符,这将帮助OpenAI监控和检测滥用行为。了解更多
新功能
我们推出的DALL·E-3带来了许多新功能和特性,帮助您生成想要的图像。以下是新功能的简要概述:
提示词重写
最新DALL·E-3 API中的一项新功能是提示词重写,我们会使用GPT-4在将您的提示传递给DALL-E之前进行优化。我们的研究表明,使用非常详细的提示能显著提升生成效果。您可以在DALL·E-3研究论文中了解更多关于我们的描述生成、提示优化和安全缓解措施的内容。
请注意,目前该功能无法禁用,但您可以通过在提示中向重新标注器提供指令来实现高度准确性,如下面的示例所示。

标准画质 vs 高清画质
DALL·E-3 引入了一个新的"quality"参数,让您可以调整生成图像时的细节层次和组织结构。您熟悉的"standard"质量生成效果就是标准的DALL·E-3,而"hd"质量则会将细节关注度和提示词遵循度提升到全新水平。请注意,将生成质量设置为"hd"确实会增加每张图像的成本,同时通常会使生成时间增加约10秒左右。
例如,这里我们有两个不同质量的图标,分别是'hd'(高清)和'standard'(标准)。通常选择哪种质量取决于个人喜好,但当任务需要更强的细节捕捉能力、纹理表现或更好的场景构图时,'hd'往往更胜一筹。
![]()
这是另一个示例,这次使用的提示词是'无限均匀镶嵌立方体网格',DALL·E巧妙地将其改写为"以等距视角精心绘制的无限均匀镶嵌立方体网格。这些立方体经过精密排列,看起来无限延伸至远方。每个立方体都完全相同,所有表面反射的光线一致,突显其均匀性。这是一幅数字渲染图像。":

新尺寸
DALL·E-3 接受三种不同的图像尺寸:1024px × 1024px、1792px × 1024px 和 1024px × 1792px。除了提供更灵活的宽高比选择外,这些尺寸还会显著影响生成图像的风格和内容。例如,当您想要类似手机摄像头拍摄的图像时,垂直尺寸可能效果更好;而对于风景画或数字设计,水平尺寸可能更为合适。
为了展示这种差异,这里提供了同一输入提示在不同宽高比下的多个变体。在这个例子中,我的提示是:“专业拍摄正在冲泡咖啡的Chemex咖啡壶。”(作为参考,这是一张真实的Chemex咖啡壶的照片)。
以下是方形格式的生成结果(包含高清和标准两种质量):

你可以看到这些图片是如何紧密围绕物品构图,看起来像是在一个较为封闭的空间拍摄的,周围摆放着各种物品。
以下是相同提示词在更宽比例下的结果:

与前几代相比,这些产品以特写形式呈现。背景经过虚化处理,更聚焦于物品本身,更像是专业策划的摄影作品而非快速抓拍。
最后,我们来看垂直方向的比例:

这些照片更像是手机拍摄的,带有更自然的随意感。画面中包含了更多动态元素:缓慢滴落的咖啡或是从壶中倾倒的活跃水流。
新样式
DALL·E-3 引入了两种新风格:自然风格和生动风格。自然风格更接近 DALL·E-2 那种"平淡"的现实主义风格,而生动风格是一种新风格,倾向于生成超现实和电影般的图像。作为参考,ChatGPT 中所有 DALL·E 生成的作品都采用"生动"风格。
自然风格在DALL·E-3过度夸张或混淆本应更简单、低调或写实的主题时特别有用。我经常将其用于标志生成、库存照片或其他需要匹配现实世界物体的场景。
这是上面相同提示词的生动风格示例。这种生动风格更具电影感(视觉效果很棒),但如果你不追求这种效果,可能会显得过于突出。

在很多情况下,我更喜欢自然风格,比如这幅模仿托马斯·科尔《荒芜》风格的画作示例:

示例与提示
为了帮助您开始使用DALL·E-3进行开发,我整理了一些可以利用该API构建的产品示例,并收集了一些目前看来是DALL·E-3独有的风格和功能。我还列出了一些我难以通过提示让DALL·E-3生成的主题,供您尝试挑战。
图标生成
你是否曾为网站或应用寻找完美图标而苦恼?如果能有一个自定义图标生成工具,让你选择图标的风格、尺寸和主题,然后通过DALL·E生成定制SVG文件,那将非常棒。以下是我用DALL·E-3生成的一些实用网站图标示例:
![]()
在这个案例中,我使用Potrace将图像转换为SVG格式,你可以在此处下载。这是我用来转换图像的工具:
potrace -s cat.jpg -o cat.svg在将图像转换为SVG之前,您可能需要提高图像的亮度和对比度。我使用了以下命令来实现:
convert cat.jpg -brightness-contrast 50x50 cat.jpgLogo生成
DALL·E-3 非常擅长为您的公司或产品启动标志设计流程。通过提示 DALL·E 创建"希腊雕像矢量标志设计,极简风格,白色背景",我获得了以下成果:

这是我为一家阿拉伯咖啡店设计的另一个标志:

在对现有标志进行迭代设计时,我采用了OpenAI的标识,让GPT-4V对其进行描述,然后指示DALL·E生成该标志的多种变体:

Custom Tattoos
DALL·E-3非常擅长生成线条艺术,这可能对创作定制纹身很有帮助。以下是我用DALL·E-3生成的一些线条艺术作品:

Die-Cut Stickers & T-Shirts
如果能用DALL·E-3生成定制模切贴纸和T恤,并与Printful或Stickermule等按需印刷服务集成会怎样?您可以在几分钟内获得定制贴纸或T恤,无需任何设计经验。以下是我用DALL·E-3生成的一些贴纸示例:

Minecraft皮肤
经过一番努力,我终于成功引导DALL·E-3生成了《我的世界》皮肤。我相信通过巧妙的提示词设计,你可以让DALL·E-3稳定生成惊艳的《我的世界》皮肤。直接使用"Minecraft"这个词可能会比较困难,因为DALL·E可能会误以为你要生成游戏内场景内容。替代方案是用不同方式表达这个概念:"忍者皮肤的平面玩家皮肤纹理,兼容Minecraftskins.com或Planet Minecraft网站。"
这是我设法创建的内容。它们可能还需要一些改进,但我认为这是个良好的开端:

还有更多...
以下是我想到但尚未有时间尝试的一些想法:
- 自定义表情符号或Twitch表情?
- 矢量插图?
- 个性化的Bitmoji风格头像?
- 专辑封面?
- 定制贺卡?
- 用DALL·E制作'结对编程'海报/传单?
展示
我们才刚刚开始探索DALL·E-3的真正潜力。以下是我目前见过最出色的风格、生成效果和提示词示例。部分图片未能追溯到原作者,如果您知道创作者信息,请务必告知!

来源:
@scharan79 on Reddit
@TalentedJuli on Reddit
@Wild-Culture-5068 on Reddit
@popsicle_pope on Reddit
@gopatrik on Twitter
@ARTiV3RSE on Twitter
@willdepue on Twitter
多位OpenAI员工
挑战
DALL·E-3仍然非常新,还有很多它难以处理的事情(或者也许我还没弄清楚如何正确提示它)。以下是一些你可能想尝试挑战的内容:
网页设计
DALL·E 在生成逼真的网站、应用等方面确实很吃力,经常生成看起来像是网页设计师作品集的页面。以下是我目前得到的最佳结果:

无缝纹理
感觉DALL·E-3已经非常接近能够生成无缝纹理了。通常效果很棒,只是稍微有些截断或存在少量伪影。请看下面的示例:

字体
使用DALL·E生成自定义字体或迭代字母设计会非常酷,但我目前还没能让它正常工作。以下是我目前取得的最佳成果:

更多资源
感谢阅读!如果您想了解更多关于DALL·E-3的资源,以下是一些相关链接: