常用模块
- requests_html模块
- json模块
requests_html模块
- requests-html是比较新的爬虫库,作者和requests是同一个作者
- 我们可以在安装的时候看到他安装了lxml,reuqests,bs4……我们常用的解析和爬取的库都封装在他里面
- 用法和requests.session实例化的对象用法一模一样,也会自动保存返回信息
- 相比reuqests,他多了对于response.html这个属性
- 注意点:默认是带了有UA的,无需额外添加
使用requests_html解析摄图网 实例
Json模块
JSON:以一种特定的字符串形式来表示 JavaScript 对象。如果将具有这样一种形式的字符串赋给任意一个 JavaScript 变量,那么该变量会变成一个对象引用,而这个对象就是字符串所构建出来的。
json使用
- dump:可以将dict类型转换成str,并写入到json文件中
- dumps:可以格式化所有的基本数据类型为字符串
- load :从json文件中读取数据
- loads :将str类型转换成dict
总结:不管是dump还是load,带s的都是和字符串相关的,不带s的都是和文件相关的。
- json.dumps 将 Python 对象编码成 JSON 字符串,严格按照JSON格式进行转换 pythonDict –> jsonStr
- json.loads 将已编码的 JSON 字符串解码为 Python 对象 jsonStr –> pythonDict
- json.dump和json.load,需要传入文件描述符,加上文件操作。