本文作者为哈工大SCIR实验室丁效,李忠阳,刘挺,雷锋网获权转载。
2016年7月,哈工大社会计算与信息检索研究中心开始启动事理图谱的研究工作。2017年10月,研究中心主任刘挺教授在中国计算机大会上正式提出事理图谱的概念。2018年9月,在研究中心丁效老师的主持下,研制出中文金融事理图谱1.0版本,2019年7月更新为2.0版。本文是对2016年7月以来工作的最新总结,敬请各位同行指正。
引言
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。然而,现有的典型知识图谱均以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。在图结构上,事理图谱是一个有向有环图,其中节点表示事件,有向边表示事件之间的演化关系。现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。本质上,事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。
1.研究背景及意义
随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类能轻易理解“吃过饭”后,就“不饿”了这样的常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,而这也是通往强人工智能的必由之路。在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识。
美国前总统特朗普拥有一个价值25万至50万美元的加密钱包:金色财经报道,美国前总统唐纳德·特朗普最近在提交给政府道德办公室的修订后的财务披露表格中透露了有关他参与NFT 的细节。在文件中,特朗普披露了他对CIC Digital LLC的所有权,该公司通过在NFT上使用特朗普的角色来获得许可费用。据彭博社报道,该公司拥有一个价值25万至50万美元的加密钱包。[2023/7/14 10:55:48]
许多人工智能应用依赖于对事理逻辑知识的深刻理解。以隐式消费意图识别以及隐式情感分析为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,我们才能在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图,进而向目标用户做出精准的产品推荐。只有让机器掌握“考试不及格”会引起“情绪低落”这样的常识事理,才能从显式事件当中挖掘出用户背后的隐式情感。现有的对话生成系统大多从大规模对话语料中以最大似然估计进行训练。然而人类对话的语义和语境是复杂多变的,这样得到的对话系统很难深入理解对话上下文的前因后果,而只是对训练语料中特定问答模式的记忆。只有让机器理解了“吃过饭”之后“人不饿了”,“看电影”之前要“先买票”这样的常识事理,对话系统才能根据不同的问答语境,做出更加智能的回复。股市一般伴随着短期内随机的小波动,以及长期内重大事件驱动的大波动。例如,近来随着人工智能迎来发展高潮,以及“国家将人工智能列为国家发展战略”,科大讯飞等人工智能企业股价迎来了一波大涨。事件驱动的股市预测悄然兴起。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而导致“股市下跌”这样的远距离事件依赖,对于事件驱动的股市涨跌预测非常有价值。事理逻辑知识的挖掘与知识库构建迫在眉睫,这将极大地推动多项人工智能应用的发展。
Copper研究主管:目前CBDCs还不能替代现金:金色财经报道,加密货币经纪公司Copper的研究主管Fadi Aboualfa表示,目前的CBDC模型 \"不是人们在日常交易中可以使用的可行的现金等价物\"。他表示,央行没有人才或基础设施来运行相当于现金的全自动去中心化货币。每个央行的设计都在创建自己的孤立方法,而零售钱包基础设施尚不存在。如果代币具有特定的商业银行品牌,可能会出现消费者信心问题。如果商业银行发行的 CBDC 受到丑闻影响,可能会导致去中心化公开市场陷入混乱。此外CBDC 互操作性的关键因素尚未得到充分考虑。争论当前的设计指向多个区块链,中间人控制流量。设计和模型需要考虑到集成,而不是供应商锁定,并且央行会有不同的考虑和要求。[2023/7/4 22:17:15]
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对我们认识人类行为和社会发展变化规律非常有意义。然而,当前无论是知识图谱还是语义网络等知识库的核心研究对象都不是事件。尽管传统知识图谱在现代搜索引擎中得到了广泛应用,但是其聚焦于实体和实体之间的关系,缺乏对事理逻辑知识的挖掘。我们认为事理逻辑知识,包括事件之间的顺承、因果、条件和上下位等关系,对于人工智能领域的多种任务具有非常巨大的价值。为了揭示事件的演化规律和发展模式,我们提出了事理图谱的概念,旨在将事件的演化规律和模式构建成一个有向图形式的事理知识库,用于刻画和记录人类行为活动和事件客观演化规律。
Web3日活用户数排名:BNB Chain第一约110万,Polygon第二约39万:金色财经报道,数据网站Token Terminal推特发文称,各主流公链和应用的Web3日活跃用户数排名显示如下:
1、BNB Chain:110万;
2、Polygon:39万;
3、Ethereum:34万;
4、Solana:12万;
5、Fantom:5.82万;
6、Arbitrum:5.8万;
7、OpenSea:5.4万;
8、Optimism:4.9万;
9、Uniswap:4.4万;
10、Avalanche:3万。
有从业者分析称,这些数据存在水分,需要清洗掉“机器用户”。这意味着,Web3的真实用户数可能要低于该数据。考虑到一个真实用户可能存在多个地址,Web3用户数或许要远小于该数据。[2022/12/19 21:52:50]
2.事理图谱的定义
事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。
理论上,事理图谱中的事件是具有一定抽象程度的泛化事件。表示为抽象、语义完备的谓词短语或句子,也可以表示为可变长度的、结构化的(主体、事件词、客体)多元组,其中必然包含一个事件词,标志事件的发生,例如:“跑步”,而事件的主体和客体都可以在不同的应用场景下被省略,例如:“”可以省略事件的客体,“”可以省略事件的主体。一般情况下,事件以及事件的抽象程度与该事件发生的场景紧密关联在一起,脱离了具体的场景,一个单独的事件可能变得过度抽象而难以理解。
比特币闪电网络容量过去30天涨至5163.73枚比特币:金色财经报道,1ML数据显示,当前闪电网络节点为15,982个,过去30天下跌0.67%,通道数量为75,563个,过去30天下降1.8%。比特币闪电网络容量为5,163.73枚 BTC,过去30天涨0.21%。(1ML)[2022/12/18 21:52:09]
例如,虽然脱离了具体的场景,但“吃火锅”,“看电影”,“去机场”,“地震”仍是合理的事件表达;但“做事情”,“吃”等事件由于过度抽象,属于不合理或不完整的事件表达。事件词可以是动词或名词,但是绝大多数事件都是动词触发的。其中,按动词的内容意义进行划分,可将事件分为动作类事件、状态类事件、关系类事件与能愿类事件四个大类。
2.1事理图谱中的事件关系类型
我们认为,现实世界中有四种事理逻辑关系特别重要,也是我们提出的事理图谱中主要关注的事理逻辑关系,包括事件之间的顺承关系、因果关系、条件关系和上下位关系。
顺承关系是指两个事件在时间上相继发生的偏序关系。我们借鉴TimeML时序关系类别中的before和after偏序关系,在事理图谱中的顺承关系包括两种情况:一种情况是顺承的前序事件a结束后,后序事件b紧接着发生;另一种情况是前序事件a结束后,隔一段时间后序事件b才会发生,具体如图1所示。两个前后顺承的事件之间存在一个介于0到1之间的转移概率,表示从一个事件按时序顺承关系演化到下一事件的置信度。
鲍威尔:国会需要澄清谁对加密货币和稳定币拥有监管权力:金色财经报道,美联储主席鲍威尔周三在参议院银行委员会作证时表示,国会需要澄清谁对加密货币和稳定币拥有权力,而美联储负责对银行进行监管和监督,对于受美联储监管的银行如何处理资产负债表上的加密资产,美联储应该有发言权。鲍威尔还表示,稳定币是一个新兴市场,尚未出现它需要的适合的监管计划,稳定币听起来很像货币市场基金。[2022/6/23 1:25:18]
事理图谱与传统知识图谱有本质上的不同。如表1所示,事理图谱以事件为核心研究对象,有向边表示事理逻辑关系,即顺承、因果、条件和上下位;边上标注有概率信息说明事理图谱是一种事件间相继发生可能性的刻画,不是确定性关系。而知识图谱以实体为核心研究对象,实体属性以及实体间关系种类往往成千上万。知识图谱以客观真实性为目标,某一条属性或关系要么成立,要么不成立。
4.事理图谱的构建
4.1基本技术原理
事理图谱课题主要研究从大规模无结构化文本数据中自动获取事理逻辑知识,并将这些知识组织成有向有环图结构,用以描述事件之间的演化规律和模式。这样的知识库我们称之为“事理图谱”。
事理图谱项目包含“构建”、“推理”和“应用”三个关键技术点:
(1)事理图谱的构建
事理图谱的构建主要用到以下具体的自然语言处理技术:事件定义、开放域或限定域事件抽取,事理关系抽取,事理关系置信强度计算,事件相似度计算,事件抽象与泛化等。
(2)事理图谱的推理
事理图谱的推理可以用于事件及关系的补全,主要涉及到的技术有:结构化事件表示学习,短语级、句子级事件表示学习,事理图谱图结构上的图神经网络技术等。
(3)事理图谱的应用
事理图谱的应用是指将构建好的事理图谱用于下游任务,例如消费意图识别和商品推荐、对话系统回复生成、股市涨跌预测、未来事件预测等,帮助提升具体任务的效果。此阶段用到的技术主要有:事理图谱的存储与查询,事件表示学习,事理图谱表示学习等。
4.2主要技术领域及当前发展热点
与事理图谱项目密切相关的技术领域主要包含以下几个方面:
(1)常识知识库资源构建
传统的常识知识库资源构建主要围绕实体及其关系展开。2012年谷歌成功将大规模知识图谱商业化,显著改善了搜索结果的呈现方式,并提升了搜索引擎的用户体验。之后以实体为中心的知识图谱获得了长足的发展以及广泛的应用。时至今日,知识图谱仍然是学术界的一个发展热点。知识图谱上的知识表示学习、实体链接、实体消歧、知识图谱补全等等研究方向仍然是当下研究的热点问题。
然而,已有研究者注意到事件常识的重要性,部分最新的研究工作开始研究以事件为中心的常识知识库构建。
(2)统计脚本学习
给出多个事件组成的上文,统计脚本学习研究下一个可能发生的事件是什么,可以认为是建模事件预测的能力。
传统方法多在无监督抽取的结构化事件链条上进行模型的搭建,这条技术路线仍然在发展当中,不断有新的模型涌现;最近,学者们提出故事结尾预测的评估方式,是对传统评估方法的进一步完善。
(3)事件顺承关系抽取
由于语料标注的限制,事件时序关系抽取研究进展相当缓慢。虽然曾经连续举办多个技术评测,推动了该技术的发展,但是进步仍然十分有限。最近,时序关系抽取重新引起了学者的研究兴趣,有许多相关研究发表。从预料的构建,识别方法的改进等多个方面继续推动该研究走向使用阶段。目前,已有开放域的时序关系抽取系统发布。
(4)事件因果关系抽取
文本中的因果关系抽取一直是一个难点。虽然学者们提出了许多方法,但是仍以因果模板匹配的方法抽取精确度最好。模板匹配的缺点在于召回率难以保证,许多有价值的因果关系无法召回。目前,高效准确的因果关系抽取方法仍然是一个难点及研究热点。
(5)知识表示学习与网络表示学习
知识表示学习是指将知识图谱中的实体及关系映射到低维稠密向量,进而可以更加方便地用于后续任务当中。网络表示学习的研究对象不仅仅包含知识图谱这种网络,而是更广义上的网络。这两个研究方向都是当下研究的热点问题,属于事理图谱应用阶段的实用技术。
5.金融事理图谱V2.0版本发布
2018年9月10日,HIT-SCIR正式对外发布金融事理图谱V1.0版本,经过近10个月的潜心研发,HIT-SCIR推出金融事理图谱V2.0版本,相对于V1.0版本,V2.0版本进行了如下的改进。
金融事理图谱V2.0版本扩充了数据源,扩大了数据规模,增加了事件节点数量以及因果关系数量,同时增加了事件上下位关系以及抽象事件和抽象因果关系,采用基于BERT+CRF的方法将因果关系抽取的F值由原来的59.54%提升到了85.12%。
结束语
知识图谱在各个领域精耕细作,逐渐显露价值。知识表示形式有待突破,推理能力有待提高。统计脚本学习和事件关系识别等事理图谱相关研究越来越吸引研究者关注。以“谓词性短语”为节点,以事件演化为边的事理图谱方兴未艾。事理图谱必将在预测、对话等领域发挥重要作用,有力地提升人工智能系统的可解释性。
详细论文请参考:https://arxiv.org/pdf/1907.08015.pdf
英国和伊朗科学家一项联合研究发现,将阿司匹林、他汀和两种降血压药物融为一体形成的一种“四合一”廉价药物可有效降低心血管疾病风险.
1900/1/1 0:00:00世界上使用最广泛的加密货币是什么?如果您认为它是比特币,则可能是错误的,虽然它约占全球数字资产总市值的70%.
1900/1/1 0:00:00公路交通运输发达的欧洲具有非常浓郁的卡车文化,特别是在相关道路交通法规的政策促进下得已长久发展。可要说这些诸多改装厂的“大师”,想必国内不少卡友一定会想起已经80岁高龄的Svempa老先生.
1900/1/1 0:00:00本网讯记者周轩千报道8月21日,在交通银行金融市场业务中心支持下,交行上海市分行为其青浦支行客户上海佰锐清洗机械有限公司成功办理了新LPR形成机制下市场首单代客人民币利率互换业务.
1900/1/1 0:00:00手机支付的普及让老百姓受益匪浅,无论是顾客还是商家,使用手机付款极大缩短了找零时间,也减少了找错零钱的概率.
1900/1/1 0:00:00首个区块链专属出生证明诞生终于可以证明“我是我”据巴西媒体近日报道,全球首个完全使用区块链技术记录的出生证明在巴西发布.
1900/1/1 0:00:00