工具人,啊不,工具蜘蛛。

使用场景

  • 通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据
  • 聚焦爬虫:建立在通用爬虫之上,抓取的是页面中特定的局部内容
  • 增量爬虫:检测网站中数据更新的情况,只会抓取网站中最新的数据

矛与盾

  • 反爬机制:门户网站,可以通过指定相应的策略或技术手段,防止爬虫程序进行爬取

    • 检查User-Agent
    • IP屏蔽
  • 抗反爬策略:通过制定相关策略或技术手段破解门户网站的反爬机制。

    • UA伪装
    • IP代理
  • robots.txt 协议 —— 君子协议:规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取

  • http

    • 概念:服务器与客户端数据交互的一种形式
    • 常用请求头信息:
      • User-Agent:请求载体的身份载体
      • Connection:请求完毕后,是否断开连接
    • 常用响应头信息:
      • Content-Type:服务器响应回客户端的数据类型
  • https
    安全的http协议

哔哔