一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化

作者：

时间：1900/1/1 0:00:00

原文作者：TanyaMalhotra

来源：Marktechpost

近年来，大型语言模型在全世界受到了广泛赞赏，并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统。

诸如GPT-3、T5、PaLM等LLMs的性能有了显着提高，并且这些模型将继续存在，因为它们可以完成从通过学习阅读来模仿人类，到生成文本和总结长段落内容的所有工作。而根据一些深入的研究，如果LLM的规模很大，那么它的表现就会很好。通过在大量数据上训练这些模型，它们可以理解人类语言的语法、语义和语用学。?

休眠2年巨鲸地址今日卖出1万枚BNB，均价230美元:6月12日消息，据Lookonchain监测显示，0x9e64开头巨鲸地址在休眠2年后，于今日卖出1万枚BNB，卖出均价230美元。据悉，该巨鲸用户此前曾大量囤积SAFEMOON，在SAFEMOON上仅用10枚BNB（当时价值2400美元）赚取11万枚BNB（当时价值4750万美元）。

此后该巨鲸于2021年6月将25,000BNB转移至0x9e64开头新地址，新地址持币至今，目前地址内剩余1.5万枚BNB(价值约350万美元)。[2023/6/12 21:31:58]

由OpenAI开发的流行的大型语言模型ChatGPT之所以发展得如此之快，正是因为采用了人类反馈强化学习等先进技术。通过RLHF，机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的LLM进行了微调，用于开发聊天机器人、虚拟助手等任务。

Marathon Digital CEO：拜登对比特币矿工征税的计划不会成功:金色财经报道，美国总统乔-拜登的政府最近宣布了一项对美国比特币矿工征税的提议。但Marathon Digital首席执行官Fred Thiel表示，这种政策方法如果实施，将把挖矿公司赶到国外，不会筹集到预期的资金。Thiel证实，该公司上个月收到了美国证券交易委员会的传票，但他说，这并不表明除了要求提供信息之外还有什么。Thiel 表示，他相信政府内部有更广泛的举措来瞄准比特币经济，包括矿工。虽然我不会说他们想要杀死比特币，但他们想让人们很难操作，并补充说该公司已经在寻求在国外发展。马拉松刚刚在阿布扎比宣布了一个新项目，还在巴拉圭等地积极寻找世界各地的新项目。[2023/5/19 15:12:31]

此外，ChatGPT等LLMs所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化：

Cathie Wood出售Block股票以加倍投资英伟达:金色财经报道，Ark Invest卖出了超过235,000股 Block 股票，按周一收盘价计算，价值超过 2000 万美元。?这家由 Cathie Wood 创立的公司反而增持了 Nvidia 的股票，为三个独立的基金增加了超过 6500 万美元的价值。?[2022/8/9 12:12:49]

1.实践证明，模型的扩展性对提高其性能很有帮助。以Pathways语言模型为例，该模型通过扩展小样本学习大大影响了其性能，小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

通过使用Pathways语言模型在6144TPUv4芯片上扩展和训练5400亿个参数，PaLM展示了重复扩展的好处，其表现超过了各种传统模型，并显示出很大的进步。因此，深度和宽度的扩展都是提高基础模型性能的一个重要因素。

2.另一个变化是在预训练时增加标记数量的过程。像Chinchilla这样的模型已经证明，通过增加预训练数据，大型语言模型的表现会更好。

Chinchilla是一个计算最优模型。在相同的计算预算下，在70B参数和比Gopher模型多四倍的数据上进行训练，Chinchilla的表现一致优于Gopher，它甚至比GPT-3、Jurassic-1和Megatron-TuringNLG等LLMs效果更好。这清楚地描述了对于每一个计算最优的训练，标记的数量应该相应地缩放——即模型大小的两倍，因此训练标记的数量应该是两倍。?

3.第三个变化是使用干净和多样化的预训练数据。Galactica的性能证明了这一点，它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练，Galactica的表现优于GPT-3、Chinchilla等模型。另一个大型语言模型BioMedLM是一种针对生物医学文本的特定领域LLM，在针对特定领域数据进行训练时，它表现出了巨大的性能提升。它清楚地表明，在特定领域的数据上进行的预训练胜过在通用数据上的训练。

结论

LLMs的成功无疑归功于多种因素的混合，包括RLHF的使用和预训练基础模型的发展。这三个变化极大地影响了LLMs的性能。此外，GLaM通过使用稀疏激活的混合专家架构，以更少的训练成本扩展模型的容量，从而显着提高了性能。因此，这些变化为更高级的语言模型开辟了道路，而这些模型将继续让我们的生活变得轻松。??

标签：CHI ATH BNB LMS 币圈lichiming ath币价格 BNBeanstalk Crypto Realms War

聚币热门资讯

在香港如何做合规加密货币基金

本文为对前沿有理CFOWingTan采访内容整理1.请介绍下前沿有理基金的历史,现状与未来发展规划前沿有理资本是由叶一舟EjoeYe先生于2017年在香港成立的资产管理公司。今年已经是叶先生在对冲基金行业工作的第14年.

1900/1/1 0:00:00

比特币矿企Riot延迟提交10-K文件

金色财经报道,比特币矿企RiotPlatforms(RIOT)推迟向美国证券交易委员会提交其年度10-K报告,原因是其会计师事务所就该公司与其比特币资产相关的减值计算提出了问题.

1900/1/1 0:00:00

云巨头拥抱 AI：Salesforce 引入 ChatGPT

撰文：王眉来源：华尔街见闻日益拥挤的人工智能赛道迎来了另一位玩家：Salesforce。当地时间周二,深耕客户关系管理的云服务巨头Salesforce表示,将发布EinsteinGPT,将OpenAI的生成式AI技术整合到其现有E.

1900/1/1 0:00:00

金色观察 | 硅谷银行被挤兑时间线

文/DorothyNeufeld,财经撰稿人；译/金色财经xiaozou3月13日,美国财政部、美联储和联邦存款保险公司联合宣布,从3月13日星期一开始,硅谷银行存款人将可以获得他们的所有资金.

1900/1/1 0:00:00

币安关于福布斯2月27日“不实指控”的回应

我们非常感谢福布斯对币安及整个加密行业的关注。2022年,加密行业出现的数个负面案例让主流媒体更加关心整个加密行业及交易平台,福布斯在过去也非常关注FTX,包括在这篇文章中也多次提及FTX；但当我们看到福布斯对币安“抵押品遭挪用”的无.

1900/1/1 0:00:00

读懂加密内存池：解决 MEV 和审查问题的全新设计空间

撰文：JonCharbonneau编译：0x11,ForesightNews加密内存池是解决MEV和审查问题的强大工具,目前已有多种可以单独使用的相关方案,它们之间也可以组合使用.

1900/1/1 0:00:00