# 1.XHR 请求 在理解逆向时,首先要明白数据是如何产生的,现在大部分数据都采用异步加载的方式,也有少量数据直接写在网页上,直接在网页上的静态数据在此不做阐述。 以目前的情况来看,我们想要获得的数据主要都是异步产生的,异步与同步的差别主要在于,同步需要执行完所有的过程数据才显示,异步就是可以中途显示数据,要使中途显示数据有很多种方法,例如和函数绑定,这样就可以实现翻页,页面的数据改变。 在类似翻页过程中,我们实际上是用鼠标点击了页面页码、下一页等操作,该位置通常绑定了 click 事件,这样我们在点击时,就会运行 click 函数,...

# 源码解读 # Spider 分布式爬虫 Spider 继承 BaseParser, Scheduler # 运行流程 初始化 Spider (传入 rediskey), 此时会初始化 Spider 中的参数,以及 Scheduler 中的参数,调用多线程中的 start 方法 在 start 方法中,将当前 Spider 对象存入 self._parsers 中,然后调用 Scheduler 中的_start 方法 在_start 方法中,调用初始化后的 request_buffer,item_buffer,collector 的 start 方法 接着根据线程数及进程数,开启多个...