宇宙链 宇宙链
Ctrl+D收藏宇宙链

一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化

作者:

时间:1900/1/1 0:00:00

原文作者:Tanya Malhotra

来源:Marktechpost

近年来,大型语言模型(Large Language Models,LLMs)在全世界受到了广泛赞赏,并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统(Intelligent Systems)。

诸如 GPT-3、T5、PaLM 等 LLMs 的性能有了显着提高,并且这些模型将继续存在,因为它们可以完成从通过学习阅读来模仿人类,到生成文本和总结长段落内容的所有工作。而根据一些深入的研究,如果 LLM 的规模很大,那么它的表现就会很好。通过在大量数据上训练这些模型,它们可以理解人类语言的语法、语义和语用学。 

ProShares宣布撤回2倍杠杆比特币ETF的提案:金色财经报道,ProShares?宣布将撤回其关于 2 倍杠杆比特币交易所交易基金 (ETF) ProShares UltraBitcoin Strategy ETF 的提案。目前没有透露突然撤回的原因。但这可能与美国证券交易委员会正在进行的审查有关。?

根据数字资产研究公司 K33 Research 的一份报告,ProShares 的比特币期货交易所交易基金 (ETF) BITO 在比特币价格上涨的情况下表现不佳,这主要是由于与其期货合约相关的结构性成本。[2023/6/4 11:56:25]

由 OpenAI 开发的流行的大型语言模型 ChatGPT 之所以发展得如此之快,正是因为采用了人类反馈强化学习(RLHF)等先进技术。通过 RLHF,机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的 LLM 进行了微调,用于开发聊天机器人、虚拟助手等任务。

币安将于4月21日14:45暂停BEP2网络的充提以支持BNB Beacon Chain网络升级:4月19日消息,币安预计将于北京时间2023年04月21日14:45暂停BNB Beacon Chain(BEP2)网络的充值、提现业务,以支持BNB Beacon Chain(BEP2)将于BNB Beacon Chain网络区块高度310,182,000 (预计东八区时间2023年04月21日15:00)进行的网络升级及硬分叉。[2023/4/19 14:13:35]

此外,ChatGPT 等 LLMs 所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化:

Web3开发平台Alchemy将推出Web3 DApp快速创建工具:金色财经报道,Web3开发平台Alchemy透露将发布一款新工具,帮助开发者更快地创建Web3应用程序。Alchemy产品负责人Elan Halpern和Vitto Rivabella指出,这款工具名为“create-web3-dapp”,将帮助开发者在四分钟内启动其应用程序。该工具将与Alchemy支持的区块链兼容,比如以太坊、Polygon、Arbitrum、Optimism等。他补充说,它还计划在未来包括其他协议和软件开发工具包。(TechCrunch)[2023/2/25 12:28:09]

1.实践证明,模型的扩展性(Scaling)对提高其性能很有帮助。以 Pathways 语言模型(Pathways Language Model,PaLM)为例,该模型通过扩展小样本学习(few-shot learning)大大影响了其性能,小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

派盾:某巨鲸已从Aave转出182万枚LINK代币:金色财经报道,派盾(PeckShield)监测显示,0x1708开头的某巨鲸地址已从Aave中移除了182万枚LINK代币(约1300万美元)的质押,并将其中4.9万枚以7000枚/笔分发到了7个新地址。

注,Chainlink质押协议v0.1测试版已上线,用户最多可以质押7000枚LINK代币并开始获得奖励。[2022/12/8 21:30:38]

通过使用 Pathways 语言模型在 6144 TPU v4 芯片上扩展和训练 5400 亿个参数,PaLM 展示了重复扩展的好处,其表现超过了各种传统模型,并显示出很大的进步。因此,深度和宽度的扩展都是提高基础模型性能的一个重要因素。

2.另一个变化是在预训练时增加标记数量的过程。像 Chinchilla 这样的模型(开源语言模型)已经证明,通过增加预训练数据,大型语言模型的表现会更好。

Chinchilla 是一个计算最优模型。在相同的计算预算下,在 70B 参数和比 Gopher 模型多四倍的数据上进行训练,Chinchilla 的表现一致优于 Gopher,它甚至比 GPT-3、Jurassic-1 和 Megatron-Turing NLG 等 LLMs 效果更好。这清楚地描述了对于每一个计算最优的训练,标记的数量应该相应地缩放——即模型大小的两倍,因此训练标记的数量应该是两倍。 

3.第三个变化是使用干净和多样化的预训练数据。Galactica 的性能证明了这一点,它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练,Galactica 的表现优于 GPT-3、Chinchilla 等模型。另一个大型语言模型 BioMedLM 是一种针对生物医学文本的特定领域 LLM,在针对特定领域数据进行训练时,它表现出了巨大的性能提升。它清楚地表明,在特定领域的数据上进行的预训练胜过在通用数据上的训练。

LLMs 的成功无疑归功于多种因素的混合,包括 RLHF 的使用和预训练基础模型的发展。这三个变化极大地影响了 LLMs 的性能。此外,GLaM(通用语言模型)通过使用稀疏激活的混合专家架构(Mixture-of-Experts architecture),以更少的训练成本扩展模型的容量,从而显着提高了性能。因此,这些变化为更高级的语言模型开辟了道路,而这些模型将继续让我们的生活变得轻松。  

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

澎湃新闻

标签:CHICHALMSRESCHIV币VotechainDLMS币Interest Protocol

以太坊价格今日行情热门资讯
2023 会是 ZK 大年吗?

2023 会是 ZK 大年吗?ZK 作为 L2 、隐私、跨链等概念下的核心技术派系,该板块热度自 2022 年延续至今;近期的  ETHdenver 大会上,ZK 持续高热.

1900/1/1 0:00:00
不是我泼冷水 但用 Coinbase 的 L2 一定要 KYC 吗?

本文来自Blec report2023 年 2 月 23 日,Coinbase 宣布将在以太坊上开发一个名为 Base 的 L2 网络.

1900/1/1 0:00:00
GameFi赛道"灵魂十问":Web3游戏的未来在哪里?

原文:《Web3 游戏行业观察十问|ZONFF Insight》作者:Sullivan,Zonff Partners 投资总监,Twitter: /img/2023525220852/0.jpg" />在主机游戏时代.

1900/1/1 0:00:00
Shard Dubai首批线上Demo Day入选15个项目速览

原文来源: Sharding Capital第一届中东 Web3 Demo Day「Shard Dubai」将于 3 月 17 日在迪拜举行,本次活动由 Web3 早期基金 Sharding Capital 发起.

1900/1/1 0:00:00
金色早报 | 国内外科技公司集体“压减”元宇宙

▌国内外科技公司集体“压减”元宇宙3月4日消息,随着AIGC(利用人工智能技术生成内容)热浪持续席卷,科技行业此前集体热衷的元宇宙热度下降.

1900/1/1 0:00:00
加密银行 Silvergate 自曝资金不足 合作伙伴纷纷退避三舍

加密货币交易银行 Silvergate 在周三发布的一份报告中称,亏损可能会使运营资金不足,其正在评估自身持续经营的能力.

1900/1/1 0:00:00