谁能革得了ChatGPT的命?现在看来还是OpenAI自己。
在ChatGPT引爆科技领域之后,人们一直在讨论AI「下一步」的发展会是什么,很多学者都提到了多模态,我们并没有等太久。今天凌晨,OpenAI发布了多模态预训练大模型GPT-4。
GPT-4实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至2.5万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。
「GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,」OpenAI工程师在介绍视频里说道。
似乎是想一口气终结这场游戏,OpenAI既发布了论文、SystemCard,把ChatGPT直接升级成了GPT-4版的,也开放了GPT-4的API。
另外,微软营销主管在GPT-4发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。
接下来,就让我们细细品味这场震撼发布。
GPT-4:我SAT考710,也能当律师
GPT-4是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
OpenAI花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。
在过去的两年里,OpenAI重建了整个深度学习堆栈,并与Azure一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI在训练GPT-3.5时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是GPT-4的训练运行获得了前所未有的稳定,以至于OpenAI能够提前准确预测GPT-4的训练性能,它也是第一个实现这一点的大模型。OpenAI表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。
CZ:我们不应该相信Twitter内部人士发布的阴谋论:金色财经报道,币安首席执行官CZ警告称,我们不应该相信 Twitter内部人士发布的叙述,我们不应该听信Binance FUD、Robinhood FUD和其他人在 Twitter 上到处冒出来的阴谋论。[2023/6/11 21:29:10]
OpenAI正在通过ChatGPT和API发布GPT-4的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI正在与其他公司展开合作。
OpenAI今天还开源了OpenAIEvals,这是其用于自动评估AI模型性能的框架。OpenAI表示此举是为了让所有人都可以指出其模型中的缺点,以帮助OpenAI进一步改进模型。
有趣的是,GPT-3.5和GPT-4之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI在各种基准和一些为人类设计的模拟考试上进行了实验。
OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型,以及大多数SOTA模型:
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,研究团队使用AzureTranslate将MMLU基准——一套涵盖57个主题的14000个多项选择题——翻译成多种语言。在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能:
就像许多使用ChatGPT的公司一样,OpenAI表示他们内部也在使用GPT-4,因此OpenAI也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI还使用GPT-4辅助人们评估AI输出,这也是OpenAI对其策略的第二阶段。OpenAI既是GPT-4的开发者,也是使用者。
A股收盘:深证区块链50指数下跌0.59%:金色财经消息,A股收盘,上证指数报3385.61点,收盘上涨1.42%,深证成指报11855.48点,收盘上涨0.47%,深证区块链50指数报3516.67点,收盘下跌0.59%。区块链板块收盘下跌1.85%,数字货币板块收盘下跌3.06%。[2023/4/17 14:08:18]
GPT-4:我能玩梗图
GPT-4可以接受文本和图像形式的prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。
具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图上——GPT-4展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链prompt。
比如给GPT-4一个长相奇怪的充电器的图片,问为什么这很可笑?
GPT-4回答道,VGA线充iPhone。
格鲁吉亚和西亚的人均每日肉类消费,算平均数:
看起来,现在的GPT已经不会在计算上胡言乱语了:
还是太简单,那直接让它做题,还是个物理题:
美国机构推荐加密货币流动性的旧风险管理原则:金色财经报道,美联储理事会、联邦存款保险公司(FDIC)和货币监理署(OCC)发布了一份声明,提醒银行在应对与加密货币有关的流动性风险时,要应用现有风险管理原则。
该联合声明强调了银行组织与加密资产和相关参与者有关的主要流动性风险。强调的风险涉及存款流入和流出的不可预测的规模和时间。联邦机构对大规模抛售或购买会对资产的流动性产生负面影响的事件表示担忧,可能会给投资者带来损失。(Cointelegraph)[2023/2/25 12:29:22]
GPT-4看懂了法语题目,并完整解答:
GPT-4可以理解一张照片里「有什么不对劲的地方」:
GPT-4还可以量子速读看论文,如果你给它InstructGPT的论文,让它总结摘要,就会变成这样:
如果你对论文里的某一个图感兴趣呢?GPT-4也可以解释一下:
接着来,问GPT-4梗图是什么意思:
中文Crypto KOL凉兮首次Twitter Space直播同时在线超8700人:10月18日消息,中文Crypto KOL凉兮首次Twitter Space直播同时在线人数超8700人,孙宇晨与杜均宣布各为凉兮提供5万美元资金,共计10万美元。[2022/10/18 17:29:46]
它给出了详细的回答:
那么漫画呢?
让GPT-4解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。
不过OpenAI在这里说了,图像输入是研究预览,仍不公开。
研究人员用学术的Benchmark视角来解读GPT-4的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务——现在的矛盾是AI的能力和人类想象力之间的矛盾。
看到这里,应该有研究人员感叹:CV不存在了。
可控性
与具有固定冗长、平静语气和风格的经典ChatGPT个性不同,开发人员现在可以通过在「系统」消息中描述这些方向来规定他们的AI的风格和任务。
系统消息允许API用户在一定范围内定制化实现不同的用户体验。OpenAI知道你们在让ChatGPT玩Cosplay,也鼓励你们这样做。
CoinShares调查:加密货币基金经理正在增加对ADA、DOT和XRP的押注:6月4日消息,根据CoinShares的数字资产双月基金经理调查结果,管理着大约2000亿美元资产的大型投资者正在远离ETH,转而押注其他三种山寨币:ADA、DOT和XRP。
调查发现,自3月份以来,投资者一直在稳步远离以太坊,同时将资金配置到这三种加密货币,这似乎将成为短期内的潜在看涨催化剂。
该报告进一步发现,随着投资者“越来越多地投资山寨币”,比特币头寸“几乎没有变化”。它发现,配置到以太坊的投资者比例略高于20%,低于3月份前一次调查的25%左右。
另一方面,据The Daily Hodl报道,投资者将资金配置到ADA的比例从5%上升至12%,增加了一倍多,配置到XRP的比例从4%上升至6%。同样,押注DOT的投资者比例从9%上升到13%左右。(Crypto Globe)[2022/6/4 4:02:02]
局限性
尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI表示,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议。
总的来说,GPT-4相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%:
GPT-4在TruthfulQA等外部基准测试方面也取得了进展,OpenAI测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。
实验结果表明,GPT-4基本模型在此任务上仅比GPT-3.5略好;然而,在经过RLHF后训练之后,二者的差距就很大了。以下是GPT-4的测试示例——并不是所有时候它都能做出正确的选择。
该模型在其输出中可能会有各种偏见,OpenAI在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
GPT-4通常缺乏对其绝大部分数据截止后发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4预测时也可能出错但很自信,意识到可能出错时也不会double-check。有趣的是,基础预训练模型经过高度校准。然而,通过OpenAI目前的后训练过程,校准减少了。
风险及缓解措施
OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。
GPT-4有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。
预防风险
按照demo视频里OpenAI工程师们的说法,GPT-4的训练在去年8月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。
GPT-4在RLHF训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由GPT-4的零样本分类器提供的,它判断安全边界和安全相关prompt的完成方式。为了防止模型拒绝有效的请求,团队从各种来源收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号。
这些措施大大在许多方面改善了GPT-4的安全性能。与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求的响应符合政策的频率提高了29%。
训练过程
与之前的GPT模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词。OpenAI使用公开可用的数据以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。
因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI依然使用强化学习人类反馈(RLHF)来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程——RLHF不会提高考试成绩。但是模型的控制来自后训练过程——基础模型甚至需要及时的工程设计来回答问题。
GPT-4的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了GPT-4在内部代码库上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为1/10000。
现在,OpenAI可以准确地预测在训练过程中优化的指标。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率:
有些能力仍然难以预测。例如,InverseScaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而hindsightneglect任务是获胜者之一。GPT-4扭转了这一趋势。
能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI表示正在投入更多精力开发相关方法,并呼吁业界共同努力。
OpenAI表示正在开源OpenAIEvals软件框架,它被用于创建和运行基准测试以评估GPT-4等模型,同时可以逐样本地检查模型性能。
ChatGPT直接升级至GPT-4版
GPT-4发布后,OpenAI直接升级了ChatGPT。ChatGPTPlus订阅者可以在chat.openai.com上获得具有使用上限的GPT-4访问权限。
要访问GPT-4API,用户可以注册等待。OpenAI会邀请部分开发者体验。
获得访问权限后,用户目前可以向GPT-4模型发出纯文本请求。至于价格方面,定价为每1k个prompttoken0.03美元,每1k个completiontoken0.06美元。默认速率限制为每分钟40k个token和每分钟200个请求。
GPT-4的上下文长度为8,192个token。OpenAI还提供了32,768个token上下文版本的有限访问,该版本也将随着时间自动更新(当前版本gpt-4-32k-0314,也支持到6月14日)。定价为每1Kprompttoken0.06美元和每1kcompletiontoken0.12美元。
以上,就是今天OpenAI关于GPT-4的所有内容了。令人不满的一点是,OpenAI公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不Open了。
不管怎样,迫不及待的用户大概已经开始测试体验了吧。
最后,也想问一下读者,看完GPT-4的发布,你有何感想。
近期GMX可谓掀起了一场LSD赛道热。GMX是去中心化的永续合约交易所,它已成为ArbitrumDeFi的纽带,一度占据1/3以上的量。GMX是一个由匿名团队创建的去中心化衍生品交易协议。GMX的核心机制是GLP流动性池.
1900/1/1 0:00:00此文来自于斯坦福区块链评论,深潮TechFlow为斯坦福区块链评论合作伙伴,独家获授权编译转载。随着区块链技术的不断发展,越来越多的应用场景涌现出来,但其在大规模应用时仍存在一些挑战,其中之一就是区块链的可扩展性.
1900/1/1 0:00:00喜欢的两个散文家,一个是汪曾祺,一个是舒国治,两者都是闲人,从文气中满溢出来的闲。似乎天大的事,都不必慌张,拖把竹椅坐下来,三三两两就讲明白了。这里很想说散文大家,但汪曾祺的文章,远胜于舒国治,汪是散文大家,舒可能还是小家.
1900/1/1 0:00:003月11日,在硅谷银行倒闭后的几个小时内,稳定币USDC发行方Circle宣称33亿美元的储备存放在硅谷银行,引发市场恐慌,中心化与去中心化市场均陷入大规模混乱.
1900/1/1 0:00:00“革命”一词可以追溯到周朝。《周易·革卦·彖传》有云:“天地革而四时成,汤武革命,顺乎天而应乎人,革之时义大矣。”指的就是在适当的时机,革故鼎新,改变旧制,方能推动社会发展。在NFT的世界里同样是这样的.
1900/1/1 0:00:00EigenLayer再质押Eigenlayer提出的再质押方案,允许用户将ETH、lsdETH及LPToken质押在其他公链、预言机、中间件等,作为节点并得到验证奖励,这样第三方项目可以借用ETH主网的安全性.
1900/1/1 0:00:00