原文标题:《硬核丨如何利用机器学习识别加密项目风险?》
撰文:PengtaiXu
翻译:Sherrie
加密货币是一种存在于数字世界的交易媒介,依靠加密技术使交易安全。加密货币背后的技术允许用户直接向他人发送货币,而不需要通过第三方,如银行。为了进行这些交易,用户需要设置一个数字钱包,而不需要提供身份证号码或信用评分等个人细节,因此可以让用户伪匿名。
对于普通的加密货币用户来说,这种匿名性可以让他们放心,因为他们的个人信息或交易数据不会被黑客窃取。然而,这种交易匿名性的提高,也容易被犯罪分子滥用,进行、恐怖融资等非法活动。这种非法活动给区块链钱包用户以及加密货币实体都造成了巨大的损失。虽然金融行动特别工作组等监管机构已经在这些实体的监管中引入了标准化的指导方针,但由于每天都有大量的加密货币实体和交易发生,监控加密货币空间是一项具有挑战性的任务。
美股三大指数集体收跌,标普500指数跌0.44%:金色财经报道,美股三大指数集体收跌,纳指跌1.16%,标普500指数跌0.44%,道指跌0.03%。[2023/6/27 22:01:33]
解决方案
图片来源:?https://dribbble.com/shots/2723032-Needle-in-a-Haystack
因此,人们有兴趣利用开源信息,例如新闻网站或社交媒体平台,来识别可能的安全漏洞或非法活动。在与LynxAnalytics的合作中,我们已经致力于开发一个自动工具,以刮取开源信息,预测每篇新闻文章的风险分数,并标记出风险文章。这个工具将被整合到?Cylynx平台?中,这是LynxAnalytics开发的一个工具,用于帮助监管机构通过使用各种信息源监控区块链活动。
报告:Q1 DeFi总锁仓量达833亿美元,环比涨幅达37.44%:4月3日消息,根据DappRadar报告,2023年第一季DeFi总锁仓量达到833亿美元,较上一季度增长37.44%,Arbitrum、Fantom和Optimism等二层解决方案贡献较大。其中,Arbitrum锁仓量达到32亿美元,增长118.40%;Optimism锁仓量触及10亿美元,较上一季度上涨85%。
在区块链方面,一季度以太坊链上DeFi锁仓量为558亿美元排名第一,占比66.95%,BNB Chain其次,同期链上DeFi锁仓量为72亿美元;波场位列第三,链上DeFi锁仓量为52亿美元。[2023/4/3 13:41:58]
开源信息的数据获取
我们确定了3类开源数据,这些数据可以提供有价值的信息,帮助检测加密货币领域的可疑活动。这些类别是:
美参议员沃伦:美SEC对加密行业的监督和限制是正确的,且行之有效:1月26日,美国参议员伊丽莎白.沃伦在接受采访时表示,SEC一直致力于保护投资者免受加密产品的影响,并阻止比特币现货ETF进入市场,未来SEC应该加倍努力并使用其工具来执行规则,而立法者应该赋予监管机构必要的资源和权力给予支持以维持现状。
针对近期市场上讨论的“超1/3美国国会成员获得过SBF的资助”一事,沃伦表示:加密货币玩家正在华盛顿大力游说,游说的资金正在增加,加密行业害怕SEC强有力的监管,所以每年花费大量资金来企图避免 受到监督; SEC一直明确地表示,加密货币不应获得通过,这是正确的做法。[2023/1/26 11:31:02]
传统的新闻网站,如谷歌新闻,它将报告重大的黑客事件。加密货币专用新闻网站,如Cryptonews和Cointelegraph,它们更有可能报道小型实体和小型安全事件的新闻。社交媒体网站,如Twitter和Reddit,在官方发布黑客新闻之前,加密货币所有者可能会在那里发布有关黑客的消息。
Aave团队成员:Aave V3可能会于本周推出:1月17日消息,Aave 团队成员 0xGraham.lens 发推称,Aave V3 可能会于本周在以太坊主网上推出。2022 年 12 月底,Aave 创始人 Stani Kulechov 发推表示,去中心化超额抵押稳定币 GHO 进展顺利,将在 2023 年 1 月初发布一个公共测试网,并将在以太坊上部署 V3 版本。[2023/1/17 11:17:03]
检索文章和社交媒体帖子的内容,然后建立情绪分析模型。该模型为文章中提到的实体分配了一个风险活动的概率。
情绪分析模型
我们尝试了四种不同的自然语言处理工具进行情绪分析,即VADER、Word2Vec、fastText和BERT模型。在通过选定的关键指标对这些模型进行评估后,RoBERTa模型表现最佳,被选为最终模型。
前道富银行高管Nadine Chakar将担任区块链创企Securrency CEO:1月5日消息,前道富银行数字金融主管Nadine Chakar将担任区块链初创公司Securrency首席执行官。Chakar将于1月9日上任。该公司创始人Dan Doney此前曾担任该公司首席执行官,他将继续担任首席技术官。
Securrency是一家基于区块链的金融和监管技术开发商。该公司与资产管理公司WisdomTree合作推出区块链基金。去年4月,WisdomTree Investments和道富银行一起参投了Securrency 3000万美元的B轮融资。(Blockworks)[2023/1/5 10:23:57]
图片来源:?https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-google-changed-nlp-and-how-to-benefit-from-this/
RoBERTa模型对新闻文章或社交媒体帖子的文本进行处理,并为特定文本分配一个风险分数。由于该文本在数据收集过程中已经被标记为实体,我们现在已经有了加密实体的相关风险指标。在后期,我们将多个文本的风险分数结合起来,给出一个实体的整体风险分数。
RoBERTa原本是一个使用神经网络结构建立的情感分析模型,我们将最后一层与我们标注的风险分数进行映射,以适应风险评分的环境。为了提高模型在未来文本数据上的通用性,我们进行了几种文本处理方法,即替换实体、删除url和替换hash。然后我们使用这个表现最好的模型进行风险评分。
风险评分
现在,每篇文章都有一个相关的来源,一个风险概率和一个计数,指的是文章被转发、分享或转发的次数。为了将这些风险概率转换为加密货币实体的单一风险得分,我们首先将文章的概率值缩放到0到100的范围内,并获得每个来源的加权平均值,结合文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的重视,因为份额数量很可能表明文章的相关性或重要性。
在计算出各来源的风险得分后,我们对各来源的风险得分进行加权求和,得到综合得分,公式如下:
传统的新闻来源被赋予了更高的权重,因为这些来源更有可能报道重大的安全漏洞。
该解决方案的有效性
我们在2020年1月1日至2020年10月30日的174个加密货币实体的名单上测试了我们的解决方案,并将结果与该时间段内的已知黑客案例进行了比较。我们发现,我们的风险评分方法表现相当出色,在37个已知的黑客案例中识别了32个。我们还分析了我们的解决方案对单个实体的有效性。下图显示了Binance从2020年1月1日至2020年10月30日的风险评分。虚线红线代表已知的黑客案例。从图中我们观察到,我们的解决方案报告了5个已知黑客中的4个黑客的风险得分增加。也有几个峰值与已知黑客案例不一致。然而,这并不构成一个主要问题,因为对我们的模型来说,更重要的是识别尽可能多的黑客,减少未识别的黑客数量。
有趣的发现
在风险评分过程中,我们注意到,与规模较小的实体相比,规模较大的实体的风险评分往往有较大比例的假阳性记录。这是因为大型实体被谈论得更多,因此会有更多的负面帖子和虚假谣言,从而导致更高的不准确率。
另一个值得强调的有趣趋势是,围绕着黑客攻击通常有几个明显的高峰。这是由于不同数据源的反应时间不同。社交媒体网站Twitter和Reddit通常是第一个看到高风险事件发生时的高峰,因为用户会发帖提出他们观察到的异常情况,比如一个实体的网站在没有事先通知用户的情况下宕机。官方消息一般是在官方声明之后,稍后才会发布。
局限性
我们发现,我们的解决方案有两个潜在的局限性,首先是需要不断地维护收集器。网站设计可能会随着时间的推移而改变,这些网站的刮擦器需要更新,以确保相关信息仍能被检索到,从而达到风险评分的目的。
第二个限制是,验证一篇文章是否已被正确地标记为加密货币实体是具有挑战性的。例如,一篇报道?Bancor?可疑活动的文章可能也会因为一个不相关的事件提到Binance。我们的解决方案会错误地将新闻标记为两个实体,并将Binance标记为风险,即使它不是文本中的关键主题。然而,这并不是一个主要的限制,因为我们只使用新闻文章的标题和摘录来进行风险评分,这通常只包含文章的关键信息。
结语
我们的项目让监管机构可以轻松挖掘开源信息,更好地识别加密货币领域发生的风险事件。我们提供了一个分析文章并预测风险分数的语言模型,以及根据实体和来源信息汇总这些分数的方法。这些方法都被编织成一个可以端到端运行的自动化流水线。将该项目整合到Cylynx平台中,将对其现有功能进行补充,并为监管机构识别高风险加密货币实体提供巨大的帮助。
比特币行情分析:小时级别来看,大饼午夜插针刺破下轨支撑,触底33351一线反弹震荡上升,触压延续震荡下行,触底二次反弹向上试探,在35666一线遇压回调,震荡下挫跌破中轨支撑,目前承压于中轨一线压制走震荡,技术面来看.
1900/1/1 0:00:00金色财经报道,1月20日,Messari推特公布的数据显示,以太坊超越比特币成为加密领域最大的结算层,2020年结算量已突破10000亿美元.
1900/1/1 0:00:00对于一艘没有航向的船来说,任何方向的风都是逆风。如果你不知道在这个市场中你要到哪儿去,那通常你哪儿也去不了。凡事预则立,不预则废。言前定则不跆,事前定则不困,行前定则不疚,道前定则不穷.
1900/1/1 0:00:00市值最大的加密货币比特币周三大幅下跌,24小时跌超5%,截止发稿时为止价格为3.5万美元。不过虽然在过去十天中比特币的价格未能继续向上突破,不过加密巨鲸仍然大肆囤积比特币,显然他们认为,4万美元远非此轮比特币牛市的顶部.
1900/1/1 0:00:00首先,要说清楚的是为什么有很多用户会选择杠杆代币,是因为LT让用户不需要再进行清算风险和可能的高收益之间的取舍。与杠杆交易不同,用户可以在不需要任何抵押品、维持保证金和担心清算风险的情况下拥有杠杆头寸.
1900/1/1 0:00:00????今天比特币如期的下跌,日内比特币的抛压比较大,承接盘的力量比较薄弱,所以今天比特币跌的比较狠.
1900/1/1 0:00:00