Feapder Versions Save

🚀🚀🚀feapder is an easy to use, powerful crawler framework | feapder是一款上手简单,功能强大的Python爬虫框架。内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。且支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统feaplat为其提供方便的部署及调度

v1.9.0

1 month ago

更新

  1. BloomFilter去重默认使用同一个key,其它类型去重默认使用redis_key
  2. BloomFilter 自动分批去重,防止一次性传输大量的数据,导致报错
  3. MongoDB 批量更新代码。
  4. RedisDB 支持hvals 命令返回哈希表所有的值。
  5. 钉钉报警支持指定用户id
  6. 爬虫代码支持提示
  7. 支持python3.12

Bug Fixes

  1. 修复mysql db find 方法bug

v1.8.9

7 months ago

更新

  1. 支持外置下载中间件
  2. 钉钉报警支持加签密钥
  3. 适配selenium>=4.0版本,新增Edge Webdriver
  4. 优化报警中的爬虫名

Bug Fixes

  1. 修复 taskspider 不回调start_callback的bug
  2. 修复重新导入失败item的bug

v1.8.8

8 months ago

更新

  1. 重写代理池,可自主控制删除代理、可自定义代理池

v1.8.6

9 months ago

更新

  1. 支持stop_spider方法,停止爬虫
  2. 监控模块metrics支持设置retention_policy副本数及是否设置为默认
  3. 完善normal_user_pool登录失败后回调的逻辑
  4. TaskSpider 可选择是否使用mysql
  5. 支持python3.11版本
  6. 精简安装包
  7. log 支持success方法

Bug Fixes

  1. 修复监控打点时间戳的问题

v1.8.5

1 year ago

Bug Fixes

  1. 修复去重库ExpireFilter与LiteFilter在批量去重时,本批内数据之间未参与去重的bug。如 ["xxx", "bbb", "xxx"] 两个xxx应只保留一个

v1.8.4

1 year ago

更新

  1. Task spider 支持检查依赖爬虫的状态,依赖的爬虫做完才可结束自己
  2. 命令行工具支持retry,可重试失败的请求或者item
  3. 支持重新导入失败的item
  4. 批次爬虫支持设置不自动启动下一批次
  5. item 支持update方法

Bug Fixes

  1. 修复任务爬虫依赖其他爬虫的bug
  2. 修复 GoldUserPool bug
  3. 修复有依赖爬虫时,依赖爬虫不结束,新批次开启不了的bug

v1.8.3

1 year ago

Bug Fixes

  1. 修复下载中间件中自定义返回response时,response.browser属性不存在导致异常的bug
  2. 修复默认ua的bug,以及浏览器渲染模式下,ua及代理优先级的问题
  3. 修复selenium浏览器渲染bug
  4. 适配parsel==1.7.0

v1.8.0

1 year ago

更新

  1. 支持playwright
  2. exception_request及failed_request透传异常参数e
  3. AirSpider 支持去重
  4. 批次超时报警后,若后续批次完成,则发个批次完成的报警,提醒已恢复正常
  5. 爬虫并发数默认1

Bug Fixes

  1. 修复feapder命令在pycharm中上下方向键不起作用的问题

v1.7.9

1 year ago

更新

  1. 浏览器渲染支持指定selenuim的更多参数
WEBDRIVER = dict(
    pool_size=1,  # 浏览器的数量
    load_images=True,  # 是否加载图片
    user_agent=None,  # 字符串 或 无参函数,返回值为user_agent
    proxy=None,  # xxx.xxx.xxx.xxx:xxxx 或 无参函数,返回值为代理地址
    headless=False,  # 是否为无头浏览器
    driver_type="CHROME",  # CHROME、PHANTOMJS、FIREFOX
    timeout=30,  # 请求超时时间
    window_size=(1024, 800),  # 窗口大小
    executable_path=None,  # 浏览器路径,默认为默认路径
    render_time=0,  # 渲染时长,即打开网页等待指定时间后再获取源码
    custom_argument=[
        "--ignore-certificate-errors",
        "--disable-blink-features=AutomationControlled",
    ],  # 自定义浏览器渲染参数
    xhr_url_regexes=None,  # 拦截xhr接口,支持正则,数组类型
    auto_install_driver=True,  # 自动下载浏览器驱动 支持chrome 和 firefox
    use_stealth_js=True,  # 使用stealth.min.js隐藏浏览器特征
    xxxx=xxx,
    xxx2=xxx2
)

Bug Fixes

  1. 修复浏览器渲染模式下的代理bug
  2. 修复delete_keys的bug

v1.7.8

1 year ago

更新

  1. 响应的html支持指定是否拼接绝对连接
  2. 优化命令行,支持创建TaskSpider
  3. 下载方法单独抽离出来,方便扩展
  4. 优化tools.del_html_tag 函数