宇宙链 宇宙链
Ctrl+D收藏宇宙链
首页 > Gateio > 正文

预训练模型ProphetNet:根据未来文本信息进行自然语言生成

作者:

时间:1900/1/1 0:00:00

作者|刘大一恒、齐炜祯、晏宇、宫叶云、段楠、周明

编者按:微软亚洲研究院提出新的预训练模型ProphetNet,提出了一种新的自监督学习目标——同时预测多个未来字符,在序列到序列的多个自然语言生成任务都取得了优异性能。

大规模预训练语言模型在自然语言理解和自然语言生成中都取得了突破性成果。这些模型通常使用特殊的自监督学习目标先在大规模无标记语料中进行预训练,然后在下游任务上微调。

传统自回归语言模型通过估计文本语料概率分布被广泛用于文本建模,序列到序列的建模,以及预训练语言模型中。这类模型通常使用teacher-forcing的方法训练,即每一时刻通过给定之前时刻的所有字符以预测下一个时刻的字符。然而,这种方式可能会让模型偏向于依赖最近的字符,而非通过捕捉长依赖的信息去预测下一个字符。有如以下原因:局部的关系,如两元字符的组合,往往比长依赖更强烈;Teacher-forcing每一时刻只考虑对下一个字符的预测,并未显式地让模型学习对其他未来字符的建模和规划。最终可能导致模型对局部字符组合的学习过拟合,而对全局的一致性和长依赖欠拟合。尤其是当模型通过贪心解码的方式生成序列时,序列往往倾向于维持局部的一致性而忽略有意义的全局结构。

数据:Curve创始人主要贷款头寸健康率已恢复至1.6以上:8月1日消息,据相关页面信息,Curve创始人Egorov的主要贷款头寸健康率均已恢复至1.6以上。

其中,在AaveV2上的贷款健康率为1.67;

在Abracadabra上的两笔贷款健康率分别为1.63和1.89;

在Fraxlend上的贷款健康率为1.91。[2023/8/1 16:12:17]

ProphetNet

针对上述问题,我们提出了一个新的seq2seq预训练模型,我们称之为ProphetNet。该模型带有一个新颖的自监督学习目标函数,即预测未来的N元组。与传统seq2seq的Teacher-forcing每一时刻只预测下一个字符不同,ProphetNet每一时刻将学习去同时预测未来的N个字符。如图1所示:

图1:左边是传统的语言模型,每一时刻预测下一时刻的字符。右边是Bigram形式下的ProphetNet,每一时刻同时预测未来的两个字符。

NFT铸造聚合器mint.fun已支持铸造Zora Network和Optimism网络NFT:7月20日消息,Web3追踪工具Context推出的铸造聚合器mint.fun已支持铸造Zora Network和Optimism网络NFT,并在Optimism网络上推出可免费铸造的NFT,用户可在PT时间7月21日9:00前铸造。此外用户在mint.fun上铸造一个L2NFT,可获得10个积分,每个NFT系列最多可获得100积分。[2023/7/20 11:06:23]

预测未来N元组这一自监督学习目标在训练过程中显式地鼓励模型在预测下一个字符时考虑未来更远的字符,做到对未来字符的规划,以防止模型对强局部相关过拟合。

ProphetNet基于Transformer的seq2seq架构,其设计有两个目标:1.模型能够以高效的方式在训练过程中完成每时刻同时预测未来的N个字符;2.模型可以灵活地转换为传统的seq2seq架构,以在推理或微调阶段兼容现有的方法和任务。为此,我们受XLNet中Two-streamselfattention的启发,提出了用于模型decoder端的N-streamself-attention机制。图2展示了bigram形式下的N-streamself-attention样例。

法国加密经纪公司Aplo获得卢森堡金融监管机构的批准:11月9日消息,总部位于法国的加密经纪公司 Aplo 已获得卢森堡金融监管机构的批准,可在整个欧盟提供银行解决方案。该批准将能够发行专用的商业国际银行帐号 (IBAN),以加载法定货币和加密货币以进行支付、运营和交易。

据悉,这家由Atomico 支持的公司目前提供对冲基金、风险投资公司和银行服务,例如交易、托管和分账服务,此前已获得法国监管机构的许可。[2022/11/9 12:39:36]

除了原始的multi-headself-attention之外,N-streamself-attention包含了额外的N个predictingstreamself-attention,用于分别预测第n个未来时刻的字符所示。每一个predictingstream与mainstream共享参数,我们可以随时关闭predictingstream以让模型转换回传统seq2seq的模式。

NFT抵押借贷协议BendDAO提案BIP#9投票开启:金色财经报道,据NFT 抵押借贷协议 BendDAO 联合创始人 @CodeInCoffee 在社交媒体透露,提案 BIP#9 投票已经正式开启,本次投票时间只有 24 小时,旨在修改部分协议参数来解决流动性危机。包括将清算阈值调整为 70%、将拍卖周期调整为 4 小时、将利息基础利率调整为 20%、以及当发生坏账时 BendDAO 社区可投票决定如何处理。截至目前,有 1500 万枚 veBEND Token 被用于投票且全部为赞成票,反对票比例0%,弃权票比例为 0%。[2022/8/22 12:41:43]

图2:(a)为mainstreamself-attention;(b)为1-stpredictingstreamself-attention;(c)为2-ndpredictingstreamself-attention;(d)展示了n-streamself-attention的输入输出及流程。

由于难以获取到大量带标记的序列对数据,我们用去噪的自编码任务通过大量无标记文本预训练ProphetNet。去噪的自编码任务旨在输入被噪音函数破坏后的序列,让模型学习去复原原始序列。该任务被广泛应于seq2seq模型的预训练中,如MASS、BART、T5等。本文中使用MASS的预训练方式,通过引入提出的predictingn-stream自监督学习目标函数预训练ProphetNet。我们以bigram形式的ProphetNet为例,整个流程如图3所示:

由Coinbase支持的Portal宣布通过Republic提供Reg D股权,并准备启动测试网:金色财经消息,由Coinbase支持的Portal宣布通过Republic提供Reg D股权,并准备在未来几周内启动其测试网。

Portal是一个基于比特币的跨链Layer2去中心化交易网络,它宣布通过Republic提供Reg D股权,Republic是一个多资产平台,允许任何人投资经过审查的初创公司。(CryptoBriefing)[2022/7/21 2:28:41]

图3:二元形式下的Prophet整体框架图

实验结果

我们使用两个规模的语料数据训练ProphetNet。ProphetNet包含12层的encoder和12层的decoder,隐层大小为1024。先在BERT所使用的BookCorpus+Wikipedia的数据上预训练模型,将模型在Textsummarization和Questiongeneration两个NLG任务上的三个数据集微调并评估模型性能。与使用同等规模数据的预训练模型相比,ProphetNet在CNN/DailyMail、Gigaword和SQuAD1.1questiongeneration数据集上都取得了最高的性能,如表1-3所示。

表1:CNN/DailyMail测试集结果

表2:Gigaword测试集结果

表3:SQuAD1.1测试集结果SQuAD1.1交换验证测试集结果

除了使用16GB的语料训练模型,我们也进行了更大规模的预训练实验。该实验中,我们使用了160GB的语料预训练ProphetNet。我们展示了预训练14个epoch后的ProphetNet在CNN/DailyMail和Gigaword两个任务上微调和测试的结果。如表4所示。需要注意的是,在相同大小的训练数据下,我们模型的预训练epoch仅约为BART的三分之一。我们模型的训练数据使用量仅约为T5和PEGASUSLARGE的五分之一,约为PEGASUSLARGE的二十分之一。尽管如此,我们的模型仍然在CNN/DailyMail上取得了最高的ROUGE-1和ROUGE-LF1scores。并在Gigaword上实现了新的state-of-the-art性能。

表4:模型经大规模语料预训练后在CNN/DailyMail和Gigaword测试集的结果

为了进一步探索ProphetNet的性能,我们在不预训练的情况下比较了ProphetNet和Transformer在CNN/DailyMail上的性能。实验结果如表5所示,ProphetNet在该任务上超越了同等参数量的Transformer。

表5:模型不经过预训练在CNN/DailyMail验证集结果

总结

本文介绍了微软亚洲研究院在序列到序列模型预训练的一个工作:ProphetNet,该模型提出了一种新的自监督学习目标,在同一时刻同时预测多个未来字符。并通过提出的N-streamself-attention机制高效地实现了模型在该目标下的训练。实验表明,该模型在序列到序列的多个自然语言生成任务都取得了不错的性能。我们将在之后尝试使用更大规模的模型架构和语料进行预训练,并进一步深入地探索该机制。

论文链接:https://arxiv.org/pdf/2001.04063.pdf

原力计划

《原力计划-学习力挑战》正式开始!即日起至3月21日,千万流量支持原创作者!更有专属等你来挑战

Python数据清理终极指南口罩检测识别率惊人,这个Python项目开源了谈论新型冠状病、比特币、苹果公司……沃伦巴菲特受访中的18个金句,值得一看!天猫超市回应大数据杀熟;华为MateXs被热炒至6万元;Elasticsearch7.6.1发布一张图对比阿里、腾讯复工的区别不看就亏系列!这里有完整的Hadoop集群搭建教程,和最易懂的Hadoop概念!|附代码

标签:CNNGASBARCNN币是什么币GAS币是什么币BAR价格BAR币

Gateio热门资讯
2020年最值得期待的数字货币货币

电子货币作为十几年来的新兴概念,属于互联网技术高速发展下的新型金融产物。在可预见的将来,甚至可能会改变全球的支付及金融体系,比如很多企业和个人为了实现资产的保值都会选择用比特币等电子货币进行交易.

1900/1/1 0:00:00
越来越多的机构投资者进场比特币,散户应该如何操作?

越来越多的机构投资者看好数字货币。 灰度的持仓有新披露,他们已经购入2020年近一半已开采的ETH.

1900/1/1 0:00:00
互联网金句批量制造指南,看完我哭了……

来源|凤凰WEEKLY(ID:phoenixweekly)在所有的新闻热点下面,金句可能会迟到,但绝对不会缺席。下面这句你一定很熟悉:“雪崩的时候,没有一片雪花是无辜的.

1900/1/1 0:00:00
投资“泰达币”60天回报50%?实际是虚拟货币类局

非法集资者为牟取暴利,不断翻新非法集资花样,如近期采用“区块链”、“虚拟货币”等高大上外衣为噱头,以“高额回报”为诱饵,改头换面取广大群众的血汗钱.

1900/1/1 0:00:00
三上市公司论链:区块链与数字货币相辅相成 合力推动产业升级

文|互链脉搏 据互链脉搏统计,两市已有超过200家上市公司在区块链领域展开实际业务,有的做基础技术,有的做产业应用,还有的正在研究.

1900/1/1 0:00:00
欧阳娜娜被骂奢侈,2万块爱马仕毯子算平价,6位数首饰才壕无人性

说起全民Vlog风潮,不得不提名当红小花欧阳娜娜,敢敢也是在Nabi的Vlog里,见识到了数量如此庞大的各种限量匡威鞋... 敢敢这样的贫民窟女孩看完,简直要激动哭了好吗!具体有哪些.

1900/1/1 0:00:00