宇宙链 宇宙链
Ctrl+D收藏宇宙链
首页 > ADA > 正文

达摩院猫头鹰 mPLUG-Owl 亮相:模块化多模态大模型,追赶 GPT-4 多模态能力

作者:

时间:1900/1/1 0:00:00

来源:机器之心

纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的GPT-4具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4和LLaVA问世不久,阿里达摩院便推出mPLUG-Owl,一个基于模块化实现的多模态大模型。

今天要介绍的是mPLUG-Owl,该工作不仅通过大量cases展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全?的测试集OwlEval,通过人工评测对比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系统类MM-REACT等工作,实验结果表明mPLUG-Owl展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方?表现突出

DEUS:如果资金被退回,将不会对黑客采取法律行动,20%的资金将作为漏洞赏金:5月7日消息,DeFi协议DEUS推特发文,更新了关于稳定币DEI安全漏洞事件的进展。目前所有合约都被暂停,链上的DEI代币被销毁,以防止进一步的破坏。团队目前正在了解DEI的实际支持情况。为了实现这一点,在销毁代币之前,要对所有DEI余额进行快照。在评估所有余额后,将制定一个全面的恢复和赎回计划。对于黑客攻击后试图套利而被卡住的用户,将会有一个评估,他们可能会被允许尽快撤销这些交易。此操作将涉及销毁流通的DEI,并增加所有其他用户的支持。DEUS建议用户保持耐心,在具体的赎回计划出台之前,不要与当前的DEI合约进行交互。

此外,DEUS表示,如果资金被退回,他们将不会采取任何法律行动。此事件将被视为白帽救援,20%的资金将作为漏洞赏金。团队还确认BSC链上的多重签名是由DEUS团队控制的多重签名。团队将在收到资金后公开确认。[2023/5/7 14:48:17]

美国前财长努钦:预计美联储还会再有一次加息:金色财经报道,美国前财长努钦表示,预计美联储还会再有一次加息。美联储加息晚了,之后又加息过快。[2023/5/3 14:39:12]

论文链接:https://arxiv.org/abs/2304.14178

代码链接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope体验地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace体验地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模态能力展示

我们把mPLUG-Owl与现有工作进行对比来感受一下mPLUG-Owl的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了cherrypick问题。

下图6展示了mPLUG-Owl很强的多轮对话能力。

长江商学院推出Global Unicorn Programs将为入选者提供Web3.0、区块链等技术支持:金色财经报道,长江商学院正在推出的全球独角兽项目(Global Unicorn Programs)在与阿联酋世界政府峰会、迪拜行政委员会、新加坡黄埔集团(Whampoa Group)、首尔市政府和 Maekyung Media Group 的合作下,将先后在迪拜(2 月 15 日)、新加坡(5 月 16-19 日)与韩国首尔(9 月 12-15 日)落地。

据悉,Global Unicorn Programs 是一个高管教育项目,专注于欧亚大陆创造独角兽和具有社会责任与全球视野的企业家生态系统。该项目将为入选者提供 Web3.0、区块链、智能制造和人工智能等技术支持。[2023/1/16 11:14:27]

摩根大通CEO戴蒙:美国可能在6到9个月内陷入衰退:10月11日消息,摩根大通CEO戴蒙周一警告称,“非常非常严重的”不利因素可能会在明年年中将美国和全球经济拖入衰退。戴蒙表示,目前美国经济\"实际上仍表现良好\",消费者的状况可能比2008年全球金融危机时更好。“但谈论经济就不能不谈未来的事情——这是很严肃的事情。”在敲响经济衰退警钟的指标中,戴蒙列举了通胀失控的影响、利率上升超过预期、量化宽松政策的未知影响以及俄乌冲突局势。戴蒙称,无法确定美国的衰退可能会持续多久,市场参与者应对一系列结果进行评估。(CNBC)[2022/10/11 10:30:27]

从图7中可以发现,?mPLUG-Owl具有很强的推理能力。

如图9展示了一些笑话解释例?。

知名球鞋店Coolkicks创始人为潮流交易平台MynaSwap筹集600万美元:10月6日消息,知名球鞋店 Coolkicks 创始人为潮流交易平台 MynaSwap 筹集 600 万美元,暴雪、Spartan Capital、NFL 球星 Odell Beckham Jr. and Kyler Murray 参投,融资估值为 5000 万美元。MynaSwap 建立在雪崩网络上,是收藏品,如运动鞋、运动卡和手表的交易平台,用户将物理藏品邮寄到 MynaSwap 的保管库进行身份验证,如果物品通过检查,它们将被存储在一个高安全性、温度受控的保险库中,并作为数字资产铸造。(the block)[2022/10/6 18:41:08]

在该工作中,除了评测对比外,该研究团队还观察到mPLUG-Owl初显一些意想不到的能力,比如多图关联、多语?、文字识别和文档理解等能力。

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl展现出了一定的多图关联能力。

如图11所示,尽管mPLUG-Owl在训练阶段仅使用了英文数据,但其展现出了有趣的多语?能力。这可能是因为mPLUG-Owl中的语?模型使用了LLaMA,从而出现了这一现象。

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图12所示。

方法介绍

该工作提出的mPLUG-Owl,其整体架构如图2所示。

模型结构:它由视觉基础模块(开源的ViT-L)、视觉抽象模块以及预训练语?模型(LLaMA-7B)组成。视觉抽象模块将较?的、细粒度的图像特征概括为少量可学习的Token,从而实现对视觉信息的?效建模。?成的视觉Token与文本查询一起输?到语?模型中,以?成相应的回复。

模型训练:采用两阶段的训练方式

第一阶段:主要目的也是先学习视觉和语?模态间的对?。不同于先前的工作,?mPLUG-Owl提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。?因此mPLUG-Owl在第一阶段只冻住LLM的参数,采用LAION-400M,?COYO-700M,?CC以及MSCOCO训练视觉基础模块和视觉摘要模块。

第?阶段:延续mPLUG和mPLUG-2中不同模态混合训练对彼此有收益的发现,Owl在第?阶段的指令微调训练中也同时采用了纯文本的指令数据(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模态的指令数据(150kfromLLaVA)。作者通过详细的消融实验验证了引?纯文本指令微调在指令理解等方?带来的收益。第?阶段中视觉基础模块、视觉摘要模块和原始LLM的参数都被冻住,参考LoRA,只在LLM引?少量参数的adapter结构用于指令微调。

实验结果

SOTA对比

为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集OwlEval。由于?前并没有合适的自动化指标,参考Self-Intruct对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。

对比结果如下图3所示,实验证明Owl在视觉相关的指令回复任务上优于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多维度能力对比

多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图?上文字理解以及推理等。为了细粒度地探究模型在不同能力上的?平,本文进一步定义了多模态场景中的6种主要的能力,并对OwlEval每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

结果如下表格6所示,在该部分实验,作者既进行了Owl的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的baseline—MiniGPT4进行了对比,结果显示Owl在各个能力方?都优于MiniGPT4。

标签:OWLPLUGPLUMPLBOWLplug币现价plugchain币价格Antiample

ADA热门资讯
全民“羊毛黨” 下個值得關注的“大毛”是哪個?

作者:大圣Web3 2023年3月23日,Arbitrum官网开启ARB申领,一大批用户直接赢麻了.

1900/1/1 0:00:00
金色觀察 | 比特幣網絡上的BRC-20代幣是什麼 一文讀懂

作者:OrdinalsFinance;翻译:金色财经xiaozou多亏了比特币网络的Segwit和Taproot升级,Ordinals协议于1月诞生,随着越来越多的爱好者来到这个最初的区块链网络铸造我们所称的比特币NFT.

1900/1/1 0:00:00
曼谷Web3见闻录:数字游民天堂or混乱灰产基地

曼谷,一座迷人的城市。得宜于其独特的文化氛围、异域色彩的风景、离中国并不遥远的距离,成为了国人极为偏爱的旅游目的地。而由于种种原因,曼谷这座东西方文化交融且极富国际化色彩的城市,也成为了Web3数字游民颇为偏爱的目的地.

1900/1/1 0:00:00
深度解析幣安 Launchpad 項目 Open Campus(EDU)

作者:Biteye核心贡献者?Lucky编辑:Biteye核心贡献者Crush4月21日,据币安官方公告,Binance即将上线第31个Launchpad项目OpenCampus,并开启BNB专场,此次售卖将基于投入模式.

1900/1/1 0:00:00
PEPE 上涨 75%,创下历史新高,因为 Meme 代币飙升

来源|Decrypt PEPE合约的黑名单已将价值800万美元的PEPE代币永久锁定:5月6日消息,软件工程师cygaar在推特上表示,其发现PEPE合约中有黑名单功能,可以阻止某人接收或发送代币.

1900/1/1 0:00:00
Shapella之后,ETH收益产品赛道的新曙光

原文标题:《AfterShapella,anewdawnforETHyieldproducts》原文作者:CHRISPOWERS原文编译:Kxp.

1900/1/1 0:00:00