chrome headless抓取websoket数据

很多页面上会有一些websocket动态数据,这些数据一般每过N秒会自动刷新数据,并在页面上进行闪烁数据。最明显的示例就是行情类数据。这里选取目标站点:https://datacenter.jin10.com/price 。

websocket-price

这里还是使用Headless Chrome模式进行抓取,[……]

Read more

开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。

开源爬虫汇总表

[……]

Read more