Python爬虫从入门到入魔(4)-百越白狼社区-弘客联盟新手区-弘客联盟

Python爬虫从入门到入魔(4)

常用模块

  • requests_html模块
  • json模块

requests_html模块

  • requests-html是比较新的爬虫库,作者和requests是同一个作者
  • 我们可以在安装的时候看到他安装了lxml,reuqests,bs4……我们常用的解析和爬取的库都封装在他里面
  • 用法和requests.session实例化的对象用法一模一样,也会自动保存返回信息
  • 相比reuqests,他多了对于response.html这个属性
  • 注意点:默认是带了有UA的,无需额外添加

使用requests_html解析摄图网 实例

ea40097ac4170143

Json模块

JSON:以一种特定的字符串形式来表示 JavaScript 对象。如果将具有这样一种形式的字符串赋给任意一个 JavaScript 变量,那么该变量会变成一个对象引用,而这个对象就是字符串所构建出来的。

json使用

  • dump:可以将dict类型转换成str,并写入到json文件中
  • dumps:可以格式化所有的基本数据类型为字符串
  • load :从json文件中读取数据
  • loads :将str类型转换成dict

总结:不管是dump还是load,带s的都是和字符串相关的,不带s的都是和文件相关的。 

  1. json.dumps 将 Python 对象编码成 JSON 字符串,严格按照JSON格式进行转换 pythonDict –> jsonStr
  2. json.loads 将已编码的 JSON 字符串解码为 Python 对象 jsonStr –> pythonDict
  3. json.dump和json.load,需要传入文件描述符,加上文件操作。

 

请登录后发表评论