网页抓包主要指的是对网页的跟踪,包括网页的访问时间、访问者的 IP 地址、访问者的浏览器等信息。在爬虫的过程中,我们看到的网页可能并非是一次就加载出来的,有的网页也可能会分好几步加载,因此跟踪网页的整个加载过程,只有完全掌握了网页抓包的操作,才能得到存放我们需要数据的页面。
网页抓包主要借助的是浏览器的开发者工具,接下来就按照我将使用本博客来对开发者工具进行介绍
在博客的初始页面打开开发者工具,可以看到如下界面:
网页抓包_20220831000216
默认开发者工具栏出现在右侧,这里为了使用方便放在了下侧,功能一样的。
首先打开的是元素页,这个页面可以用来查看网页的 html 格式和 css 的源码,可以通过左上方小箭头样式来跟踪网页的结构,这对于我们快速定位爬取数据在 html 中的位置有很大的帮助,另外也可以借助右侧的 css 栏目来查看网页加载的 css,每一个样式右上方的蓝色链接存放着 css 的链接,可以用来提取网页美化的样式。
接着是控制台一栏,这一栏我平时用的很少,可以类比为网页的命令行工具,可以用来调取各种你需要的内容(调试 js 代码,调取日志等)
再然后是源代码一栏:
网页抓包_20220831001120
这一栏是非常重要的一栏,存放着整个网页所有的源代码,包括整个页面请求所有资源的具体情况,更重要的是可以在这个页面进行 js 代码的调试,是网页抓包很重要的一个页面,通过这栏可以对网页资源的加载请求有一个全面的认识。
接着是应用程序栏:
网页抓包_20220831001611
这一栏主要是存放网页在本地存储信息,例如网页的 cookie 信息等。
接下来介绍的是网络抓包中最重要的一栏,就是网络一栏,这一栏记录了网页加载的整个过程,通过这栏我们可以看到网页资源加载的先后顺序,以及资源具体的请求方式之类的信息,这是网页抓包过程中最重要的环节,一般来说可以借助这一栏来识别网页是否存在异步加载和重定向之类的信息,这对于爬虫的构建至关重要。