2022年6月3日 端午节安康。
今天主要分享如何利用爬虫爬取区块链浏览器上的交易列表数据。
dune上没有bsc链上的转账明细数据表。Footprint Analytics上现有的bsc_transactions表transfer_type粒度不够。
python 3.7
数据存储:mysql 5.7
缓存:redis 6.2.6
开发工具:pycharm
(1)所有协议、合约、swap地址转账信息全爬不太实际,对存储要求比较高。所以针对需要分析的协议,专门去爬取对应智能合约转账是个不错的选择。
(2)区块链浏览器肯定是有反爬机制的。所以在代理选择上,要选择国外的代理。国内的代理都访问不到,具体原因你懂的。本文中不涉及代理部分,因为国外的代理厂家之前没有了解过。不过即使是上代理,对代码层面改动也比较小
Dune Analytics宣布开源Python库“Harmonizer”并将集成GPT4:4月21日消息,链上数据分析平台Dune Analytics官推宣布开源Python库“Harmonizer”,Harmonizer主要将来自Postgres&Spark的查询转换为DuneSQL,并且大量利用了SQLGlot(一个处理SQL语言的Python库),Dune使用SQLGlot将查询解析成一个Abstract Syntax Tree,然后翻译成DuneSQL,通过自定义规则传递查询以将其匹配到新平台。Dune Analytics还表示目前正致力于集成GPT4,以使Harmonizer更加强大。[2023/4/22 14:19:20]
(3)采用了urllib同步请求 + 范围内随机时长程序休眠。减少了被风控的概率。但是也降低了爬虫的效率。
Wormhole和Pyth正在Aptos上启动:金色财经报道,Jump Crypto支持的基础设施项目Wormhole和Pyth正在Aptos上启动,Aptos 联合创始人兼首席执行官 Mo Saikh 在纽约市的 Messari Mainnet 会议上表示,Jump Crypto在 Aptos 生态系统中“花费了大量时间”。Wormhole宣布其代码已部署到Aptos devnet上,并且“功能完整,正在接受审计”。[2022/9/22 7:12:27]
后面再研究用scrapy或异步请求
同步:请求发送后,需要接受到返回的消息后,才进行下一次发送。异步:不需要等接收到返回的消息。
找到需要爬取合约的具体地址:
Amber Group与跨链预言机项目Pyth Network达成合作:9月17日消息,加密金融公司Amber Group宣布与跨链预言机项目Pyth Network达成长期合作关系,通过这次合作,Amber Group将用链上价格指标强化Pyth Network的数据架构。因此,Pyth Network提供的所有DeFi协议将能够利用“真实的”链上数据,而不是由中心化平台广播的数据。此次升级将使整个系统更具抗攻击性、去中心化性、防篡改性和透明性。[2021/9/17 23:32:32]
第一页
http://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8第二页
Blockstream工程师用Python3.0重写闪电网络代码库以测试相关应用功能:据Blockstream中文社区消息,开发了闪电网络大部分协议的Blockstream工程师Rusty Russell,最近用Python3.0重写了测试闪电网络的代码库,该库可以用来测试闪电网络上应用程序的基本功能是否正常。[2020/7/20]
https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=2第三页
https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=3....
可以知道 p = ?就代表页数。
然后F12 点击“网络”,刷新界面,查看网络请求信息。
主要查看,网页上显示的数据,是哪个文件响应的。以什么方式响应的,请求方法是什么
如何验证呢,就是找一个txn_hash在响应的数据里面按ctrl + f去搜索,搜索到了说明肯定是这个文件返回的。
查看响应的数据,是html的格式。在python里面,处理html数据,个人常用的是xpath(当然,如果更擅长BeautifulSoup也可以)
在python里面安装相关的依赖
pip install lxml ‐i https://pypi.douban.com/simple同时在浏览器上安装xpath插件,它能更好的帮助我们获到网页中元素的位置
XPath Helper - Chrome 网上应用店 (google.com)
然后就可以通过插件去定位了,返回的结果是list
**注:**浏览器看到的网页都是浏览器帮我们渲染好的。存在在浏览器中能定位到数据,但是代码中取不到值的情况,这时候可以通过鼠标右键-查看网页源码,然后搜索实现
然后就是利用redis,对txn_hash去重,去重的原因是防止一条数据被爬到了多次
最后一个需要考虑的问题:交易是在增量了,也就是说,当前第二页的数据,很可能过会就到第三页去了。对此我的策略是不管页数的变动。一直往下爬。全量爬完了,再从第一页爬新增加的交易。直到遇到第一次全量爬取的txn_hash
最后就是存入到数据库了。这个没啥好说的。
以上就可以拿到转账列表中的txn_hash,后面还要写一个爬虫深入列表里面,通过txn_hash去爬取详情页面的信息。这个就下个文章再说,代码还没写完。
今天就写到这里。拜拜ヾ(?ω?`)o
来源:Bress
作者:撒酒狂歌
头条 ▌V神:反对禁止PoW 建议实施碳定价6月5日消息,以太坊创始人 Vitalik Buterin 在社交媒体上发文反对禁止 PoW,并指出由官方挑选哪些具体的应用可以使用电力是一个坏主意.
1900/1/1 0:00:00本文节选自最新出版的《元宇宙与数字经济》一书,作者朱嘉明。我们通过自己的观察来创造历史,而不是历史创造我们.
1900/1/1 0:00:00?最近高杠杆引起的加密货币暴跌行情吸引了所有人的注意力,更需要真正的互联网骑士来解救弥漫着投机气氛的Web3行业。作为美国硅谷精神最有代表性的人物之一的Jack Dorsey最近公布了他对于下一代互联网的认知,称为Web5.
1900/1/1 0:00:001.DeFi代币总市值:484.65亿美元 DeFi总市值 数据来源:coingecko2.过去24小时去中心化交易所的交易量:40.02亿美元 过去24小时去中心化交易所的交易量 数据来源:coingecko3.
1900/1/1 0:00:00可操作的见解: 如果你只有几分钟的时间,以下是投资者、运营者和创始人应该知道的关于社交代币的内容:术语 "社交代币 "可能并不意味着你所想的那样。通常情况下,社交代币被认为是一种与个人有关的可替换货币.
1900/1/1 0:00:005月30日是Chainlink在以太坊主网上线三周年的日子。自从主网上线以来,Chainlink在全球开发者、研究者、贡献者、数据提供商、节点运营商以及社区成员的帮助下,已经发展成了Web3世界中不可或缺的预言机基础设施.
1900/1/1 0:00:00