宇宙链 宇宙链
Ctrl+D收藏宇宙链
首页 > 比特币 > 正文

颠覆想象的AI绘画:Dall-E 2使用指南

作者:

时间:1900/1/1 0:00:00

围绕OpenAI推出的第二代DALL-E2系统的讨论一直处于两极分化的状态,甚至在其推出了几个月后依旧如此。

有用户认为这是一项可以重新定义艺术的突破性创新,而批评者则将其视为人工智能图像生成器给创意产业带来厄运的开始。

然而毫无疑问的是,DALL-E2为我们创造和消费艺术开辟了新的可能性和挑战。本文详细介绍了AI图像生成器DALL-E2的用法和缺点。

什么是DALL-E2?

DALL-E2是一款人工智能图像生成器,它可以根据自然语言的文本描述创建图像和艺术形式。换句话说,它是一个根据文本生成图像的人工智能系统。

2021年1月,OpenAI推出了DALL-E模型,DALL-E2是其升级版。“DALL-E”这个名字源于西班牙著名艺术家SalvadorDalí和广受欢迎的皮克斯动画机器人“Wall-E”的组合。

2022年7月,DALL-E2进入测试阶段,可供白名单中的用户使用。同年9月28日,OpenAI取消了白名单的要求,推出了任何人都可以访问并且使用的开放测试版。

声音 | 比特币国际圆桌论坛召集人PZ:区块链是改变世界行为模式的颠覆性技术:1月11日,在区块链研习社全国行方舟计划武汉站暨三周年庆典上,比特币国际圆桌论坛召集人 PZ进行了以“区块链——改变世界行为模式的颠覆性技术”为主题的演讲。

PZ表示为什么说区块链是改变世界行为模式的颠覆性技术,因为区块链天生是全球化的,作用范围是全世界,难以窜改让区块链具有可信度,公共账本则可以让任何人都可以使用。

同时表示整个物理世界的资产都可以数字化,数字化之后可以上链,在协作中需要的人际关系、协作关系、契约等都可以放到链上,进而改变现有世界的行为模式,形成全新的更高效的行为模式。[2020/1/11]

与最初的DALL-E一样,DALL-E2也是一种语言生成模型,它使用文本提示来创建原始图像。

尽管和之前DALL-E具有的120亿个参数的模型不同,DALL-E仅仅具有大约35亿个参数,但DALL-E2生成的图像分辨率是DALL-E的四倍,这是一次令人印象深刻的升级。同时,DALL-E2在真实感和字幕匹配方面似乎也做得更好。

如何使用DALL-E2?

听起来,DALL-E2很有未来感,可能会让新用户望而生畏,但它使用起来非常简单。我们不进行详细介绍,仅通过迷你教程为大家提供快速概览。

首先,登陆DALL-E2的官网并创建一个帐户,如果您此前已经拥有OpenAI的帐户,登陆即可。需要注意的是,系统会要求您提供电子邮件和电话号码以进行验证。

声音 | 中再集团冯键:区块链凸显颠覆性价值,将加速重塑保险新业态:据腾讯新闻报道,中再集团信息技术中心总经理冯键表示,区块链具有理想国基因,快速发展中凸显三大矛盾:1. 区块链商业应用的热情与技术实践冷思考的矛盾;2. 区块链数据安全的技术保障与社会心理担忧的矛盾;3. 区块链去中心化的初衷与实际中心强化趋势的矛盾。[2019/11/16]

一旦帐户准备就绪,我们就可以开始生成图像。用户最多提供400个字符的描述性文本,AI艺术生成器将对其进行处理。根据测试,我们可以从文本提示中得到许多原创且有趣的结果。

比如,我们输入“狼群在满月时嚎叫”就收到了如下的结果。

输入“一个3D渲染的罗马士兵正在休息”则获得了以下的图像。

声音 | 通证通创始人宋双杰:比特币背后技术虽具前景,但不一定颠覆现有金融体系:据中国企业家杂志报道,通证通创始人、经济学博士宋双杰分析称,目前比特币在业内更多地被认为是一种数字黄金,即类似于黄金一样的价值储藏载体。虽然比特币稳定性、普遍接受度等不及黄金,但因其具有稀缺性、便携性、可无限分割、可验证性等优势,从理论上讲,比特币替代黄金存在很大的可能性和趋势性,只是时间问题。他进一步称,比特币背后的技术具有一定的前景,但并不一定能颠覆现有的金融体系,未来也许会变成金融体系的竞争者,或是拥有平等地位的平行者,或者会成为金融体系的补充。从经济学角度看,由于比特币的供给增速持续减少,而需求不断增加,必然会导致价格发生变化。[2019/5/31]

DALL-E2的工作原理是什么?

DALL-E2为AI图像生成器的质量提供了新的基准。它与之前的同类产品相比,能够更好地理解文本描述。

其卓越的自然语言理解能力可以更严格地控制图像的风格、主题、角度、背景、位置和概念,并获得更高质量的图像和令人印象深刻的艺术形式。

那么让我们来看看DALL-E2的工作原理。

要了解AI图像生成器的工作原理,我们首先需要了解CLIP、先验模型和解码器扩散模型。

什么是CLIP?CLIP指的是对比语言图像预训练,是DALL-E2架构中最关键的模块。

金色相对论 | 比太钱包文浩:闪电网络对于未来的区块链生态会有彻底的颠覆作用:在本期金色相对论之“闪电网络:Hello,TPS”上,金色财经合伙人佟扬对话比太钱包创始人文浩,针对闪电网络如果兴起会在比特币经济体系中增加更大的流通性,这将对比特币和加密货币发展有哪些影响的问题,文浩表示,三年前当我第一次和阿彪、东叔深入讨论闪电网络技术的时候,当时我们几个就有了个共识,即“闪电网络白皮书”是数字货币世界里既中本聪白皮书之后第二重要的论文。闪电网络对于比特币和加密货币可以说会有巨大的影响,对于未来的区块链生态会有彻底的颠覆作用。闪电网络的主要场景是支付,我们都知道,区块链上的资源总的来说还是受限的,无论是比特币区块大小之争所导致的BCH分叉事件,还是后来从以太开始到 EOS/TRX 等公链所发展出来的高TPS概念,其实本质上还是为了能更好的满足用户低成本、高效率支付的需求,但链上解决这一需求其实是永远受限的,哪怕是像EOS,仍然要受到链上资源(CPU、内存能)的限制,闪电网络可以说是很牛逼的从另一个角度彻底的解决了这一需求,其意义是革命性的。随着闪电网络的发展,比特币支付将真正接近甚至达到支付宝、微信支付的体验,这样讲大大扩展比特币支付场景的适用范围,并且随着真实支付需求的发展,比特币的流通性将大幅提升,比特币等数字货币将更多的从“炒”的场景进入到“用”的场景,用户行为将从交易所转移到钱包、支付等真实的应用场景,这对于数字货币发展的意义显然是巨大的。另外,由于闪电网络去中心化、无需信任的特点,基于闪电网络模型还可以扩展出跨链去中心化交易的模型,这将从另一个角度对当前的中心化交易所以及单链去中心化交易所产生颠覆式的影响,大家可以设想一下,您未来可以无需信任的通过闪电网络模型跨链的交易 BTC/ETH/EOS/USDT,成本近乎为零,都是瞬时成交的,不用存币,不用提币,不用担心平台跑路,这对于区块链世界的发展显然也将是革命性的。[2019/3/7]

该训练基于用户可以用自然语言教计算机不同图像之间如何相互关联,并由文本和图像编码器这两个神经网络组成。

新华网:没有成熟技术,区块链拿什么来颠覆:新华网援引科技日报文章表示,“颠覆”是区块链宣扬者用得最多的一个词。然而,目前的区块链技术水平能否达到安全、可靠、稳定等标准?即便达到了,在可操作性上还应考虑社会学因素。文中指出,“伪装”与“视而不见”的结伴让区块链技术动机不纯;“鼓吹”让区块链哗众取宠;“利益”让区块链可能挣脱“市场规律”。[2018/3/25]

文本和图像编码器都接受了大量不同的图像文本对集合的训练。该模型分析这些图像-标题对以创建称为文本/图像嵌入的矢量表示。换句话说,CLIP充当文本和图像之间的桥梁。

先验模型采用标题/CLIP文本嵌入,并以此为基础生成CLIP图像嵌入。

unCLIP则是使用CLIP图像嵌入生成图的原始CLIP模型的逆模型。DALL-E2通过先验模型和unCLIP模型来创建输出。

下图大致概述了其基本过程。

如图所示,unCLIP模型创建了图像的“心理”表示。基于此,创建了原始图像。

这些“心理再现”保留了语义一致的核心特征和特点,例如“动物、物体、颜色、风格和背景等关键要素”。然而,因为扩散学习是变化的,每一次输出的图像也会有所不同。

请注意,上文只是DALL-E2工作原理的简要表述,实现的技术细节和数学更加复杂,我们就不在这里赘述。如果您对DALL-E2的技术规格感兴趣,可以参看OpenAI在今年早些时候发表的论文《HierarchicalText-ConditionalImageGenerationwithCLIPLatents》。

使用DALL-E2可以做什么?

只要用户给出精确和具有描述性的文本提示,就可以通过AI艺术生成器得到多个高质量的图像,甚至在几秒钟的时间里实现画家或数字艺术家需要数小时甚至数天才能达到的质量水平。

用户可以免费查看所有这些视觉创意,无需支付场地费,也无需向创意人员和模特支付工资。

然而这也对我们的内容创作经济带来了一定的影响。

DALL-E2使用自己对主题、风格、调色板和所需概念意义的“理解”,生成相应的图像。

每个图像最多可以产生四个变体。每一个都与原作的外观、感觉和意义相呼应,但又具有自己独特的风格。

您也可以在DALL-E2中编辑图像,无需任何照片编辑经验。与AdobePhotoshop不同,使用DALL-E进行编辑非常简单。

例如,用户想要在火星上行走的宇航员的肖像中添加一只狗,只需要输入“在宇航员身后放一只狗”。同样,用户还可以要求程序通过放大和缩小来更改图像的视图框架,直到获得所需的结果。而就DALL-E2的功能而言,这些只是冰山一角。

同时,根据设计,该系统无法生成涉及、血腥或元素的内容。也就是说,该程序有其合理的局限性和缺点。

DALL-E2的局限性

DALL-E2的输出质量很大一部分取决于用户提供的文本提示的质量,文本越具体,获得所需输出的机会就越高。然而,该系统有一些内在的局限性。

例如,当前它还不具有很精确组合性,尽管似乎会随着时间的推移而改善。这意味着DALL-E2通常无法有意义地合并多个对象或对象属性,例如形状、方向和颜色。

同时在一些意料之外的情况下,有一些相对简单的文本,程序也可能无法充分执行。

例如,我们输入文本“一百只打扮成罗马士兵的青蛙在沙漠中行进”。即使我们尝试了多种提示变体,结果也不尽如人意。

另一个例子是当我们尝试相当简单的提示时,如“霸王龙骑着独轮车在艾菲尔塔前”。不知道为什么,程序拒绝画独轮车,取而代之的是自行车。而当我们从提示中删除“EifelTower”,产生预期图像则没有任何阻碍。

这些只是DALL-E2局限性的几个例子。更令人担忧的问题本质上很复杂,可能会对公司及其用户造成严重不良影响。

OpenAI限定DALL-E2不创建公众人物和名人的图像。事实上,它完全拒绝生成包含真实面孔或真人的图像,这是朝着防止滥用该程序迈出的重要一步。

随着DALL-E2越来越受欢迎,版权侵权也可能成为一个大问题。OpenAI坚持认为,用户“获得了将他们使用DALL-E创建的图像商业化的全部权利,包括转载、销售和商品化的权利。”

然而,人工智能艺术生成器依赖于分析、学习人类艺术家的作品来创造艺术。因此,不能排除潜在的侵犯知识产权法的可能性,无论是否有意。

总结

DALL-E2完美吗?作为一项正在完善的项目,答案是否定的。

但是,正如机器学习的本质一样,随着时间的推移,该程序正变得越来越聪明,也越来越有能力。从纯技术的角度来看,DALL-E2是AI技术演进的一大进步。

人们普遍认为人工智能系统在创意领域实际上无法超越人类,至少不会很快。但是DALL-E2已经使这个论点受到了冲击。

然而尽管OpenAI已经采取了一系列措施来预测和防止DALL-E2的潜在滥用,但这并非万无一失。在没有任何道德界限的情况下可以使用的AI系统将在多久后出现?需要我们保持警惕。

无论如何,我们都需要密切关注这个新兴行业。因为AI艺术生成器及其背后的技术只会在未来的岁月里变得更加普遍。

标签:ALLDAL区块链比特币mathwallet.orgDALI区块链dapp开发白富美李晨比特币5个亿爆仓怎么翻身

比特币热门资讯
金色Web3.0日报 | 成都印发首个“元宇宙”政策文件

DeFi数据 1、DeFi代币总市值:357.6亿美元 DeFi总市值及前十代币数据来源:coingecko2、过去24小时去中心化交易所的交易量15.

1900/1/1 0:00:00
回顾熊市下资助(Grant)的生态系统及组件

原文标题:《DAOrayaki|回顾熊市下资助的生态系统及组件》原文来源:DAOrayaki在牛市中,我们有流动性挖矿;在熊市中,我们有赠款挖矿。 为什么赠款很重要? 赠款和赠款计划在加密领域或Web3中一直占有一席之地.

1900/1/1 0:00:00
VC年报:2022年加密行业融资金额共 377 亿美金 投资项目共 1769 个

根据Messari统计,2022年加密VC公开的投资项目共1769个,相比2021年提高了30%.

1900/1/1 0:00:00
Move语言安全性解析:智能合约语言的game changer

前言 Move语言是一种可编译运行在实现了MoveVM的区块链环境中的智能合约语言。其诞生之初,考虑到了诸多区块链和智能合约的安全性问题,并参考了一些RUST语言的安全设计.

1900/1/1 0:00:00
金色午报 | 12月27日午间重要动态一览

7:00-12:00关键词:BNBChain、TeamFinance、ShibaInu、汇丰银行1.BNBChain宣布与Web3游戏平台GameFi.org达成合作.

1900/1/1 0:00:00
加密矿业演化简史

在加密行业中,矿工是一个特殊的群体,他们是区块链底层安全保障,是加密行业中最富有的和最具话语权的一群人,代表着加密市场的晴雨表;同时,在反对者眼中,其所处的行业是吞噬能源的巨兽,是披着数据科技外衣的落后产能.

1900/1/1 0:00:00