ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

作者：

时间：1900/1/1 0:00:00

撰文：TanyaMalhotra

来源：Marktechpost

编译：DeFi之道

图片来源：由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功，大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型，允许用户生成有意义的文本。不仅如此，它还可以回答问题，总结长段落，编写代码和电子邮件等。其他语言模型，如Pathways语言模型、Chinchilla等，在模仿人类方面也有很好的表现。

BNB Chain：余额在0.1ETH及以上的地址可接收ETH PoW分叉空投:9月9日，据官方消息，BNB Chain宣布其网络上所有余额大于0.1ETH（含0.1ETH）的地址有资格以1：1比例接收可能的ETH PoW分叉空投。用户无需通过跨链桥将ETH资产转移出BNB Chain。[2022/9/9 13:20:18]

大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈，而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。

QITCHAIN的PoST算法主网升级预计在4月28日完成:据官方公告消息，QiTChain Network向全球发布公告，主网PoST升级将于4月28日完成，届时将邀请喜欢QitChain network的存储服务商参与到全新的主网测试中进行网络测试，测试时间是4月28到5月4日，通过测试后，第二代QitChain Network网络将于5月5日正式面向全球开源。升级后，QTC主网可兼容CHIA存储设备。[2022/4/26 5:13:05]

ChatGPT使用来自人类反馈的强化学习，通过最小化偏差对模型进行微调。但为什么不是监督学习呢？一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢？人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因，即为什么强化学习被用于微调而不是监督学习。

加密初创公司Blockchain.com聘请沃尔玛首席独立董事加入董事会:1月24日消息，加密初创公司Blockchain.com已聘请沃尔玛首席独立董事Tom Horton加入其董事会。据悉，Horton是通用电气公司的董事会成员，曾是美国航空集团的董事长，也是华平投资有限公司的高级顾问，这家私募股权公司的总裁是美国前财政部长Timothy Geithner。Tom Horton在接受采访时说：“金融服务和货币领域正在发生巨大的转变，成为其中的一部分是非常令人兴奋的。”

Blockchain.com首席执行官Peter Smith表示，公司在计划进行首次公开募股之前一直在加强其董事会，而这可能会在“近期到中期”发生。（彭博社）[2022/1/24 9:10:03]

七位前Steem开发人员成立OpenOrchard以构建创新开源技术:金色财经报道，七位前Steem顶级开发人员成立了OpenOrchard，这家公司寻求在Hive之上构建创新的开源技术。OpenOrchard的发展源于OpenSeed，该团队由Steem开发人员Andrew Levine、Benjamin Flanagin和Ron Hamenham组成。据此前消息，Steem社区于北京时间3月20日硬分叉，新链名为Hive。[2020/4/17]

不使用监督学习的第一个原因是，它只预测等级，不会产生连贯的反应；该模型只是学习给与训练集相似的反应打上高分，即使它们是不连贯的。另一方面，RLHF则被训练来估计产生反应的质量，而不仅仅是排名分数。

SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的，而监督学习无法提供这种奖励。

不选择SL的第三个原因是，它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上，改变反应中的个别单词可能对整体损失只有很小的影响，但如果一个单词被否定，产生连贯性对话的复杂任务可能会完全改变上下文。因此，仅仅依靠SL是不够的，RLHF对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型，但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示，RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励，而SL由于其文本段落级的损失函数而未能很好做到这一点。

像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中，首先使用SL对模型进行微调，然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容，而RLHF阶段则完善模型的反应以提高准确性。

标签：CHA HAI Chain AIN treasurechaintst Welups Blockchain ectchain itochain

屎币热门资讯

Web3游戏行业观察十问

原文来源：Sullivan,ZonffPartners?投资总监,Twitter:/img/20230515162420725317/0.jpg "/>在主机游戏时代,总销量破3000万份已经是顶级游戏产品的存在.

1900/1/1 0:00:00

Silvergate危机吓坏市场银行加密业务或“难上加难”？

加密银行SilvergateBank的财务危机吓坏了市场。周五亚洲时段开市后,比特币跌至盘中低点22,020美元,以太坊跌至1,550美元附近,跌幅超过5%,加密总市值在一个小时内蒸发超过600亿美元,回落至2月中旬的低点.

1900/1/1 0:00:00

一文读懂Pendle：LSD战争的背后赢家？

原文作者：CryptoTrissy原文编译：aididiaojp.eth,ForesightNews收益率具有跟代币价格相似的波动性,在牛市中上涨,在熊市中下跌.

1900/1/1 0:00:00

Uniswap基金会成立Uniswap Bridge评估委员会并启动评估流程

3月3日消息,Uniswap基金会宣布成立UniswapBridge评估委员会并启动评估流程。该委员会将处理包括Axelar、Celer、deBridge、Hyperlane、LayerZero、Multichain、RouterPr.

1900/1/1 0:00:00

BTC NFT 铸造指南

在这篇文章中,我会以 //定义循环函数functionloop(numbers,index){?constnumber=numbers;?//构造接口地址?consturl=apiUrl+num.

1900/1/1 0:00:00

金色观察 | MetaMask和Unity达成合作 NFT游戏会爆炸吗

文/?WilliamM.Peaster,Bankless作者；译/金色财经xiaozou2023年2月28日,MetaMask宣布MetaMask?SDK入驻Unity资产商店.

1900/1/1 0:00:00