Feapder Versions Save

🚀🚀🚀feapder is an easy to use, powerful crawler framework | feapder是一款上手简单,功能强大的Python爬虫框架

v1.8.3

4 weeks ago

Bug Fixes

  1. 修复下载中间件中自定义返回response时,response.browser属性不存在导致异常的bug
  2. 修复默认ua的bug,以及浏览器渲染模式下,ua及代理优先级的问题
  3. 修复selenium浏览器渲染bug
  4. 适配parsel==1.7.0

v1.8.0

1 month ago

更新

  1. 支持playwright
  2. exception_request及failed_request透传异常参数e
  3. AirSpider 支持去重
  4. 批次超时报警后,若后续批次完成,则发个批次完成的报警,提醒已恢复正常
  5. 爬虫并发数默认1

Bug Fixes

  1. 修复feapder命令在pycharm中上下方向键不起作用的问题

v1.7.9

3 months ago

更新

  1. 浏览器渲染支持指定selenuim的更多参数
WEBDRIVER = dict(
    pool_size=1,  # 浏览器的数量
    load_images=True,  # 是否加载图片
    user_agent=None,  # 字符串 或 无参函数,返回值为user_agent
    proxy=None,  # xxx.xxx.xxx.xxx:xxxx 或 无参函数,返回值为代理地址
    headless=False,  # 是否为无头浏览器
    driver_type="CHROME",  # CHROME、PHANTOMJS、FIREFOX
    timeout=30,  # 请求超时时间
    window_size=(1024, 800),  # 窗口大小
    executable_path=None,  # 浏览器路径,默认为默认路径
    render_time=0,  # 渲染时长,即打开网页等待指定时间后再获取源码
    custom_argument=[
        "--ignore-certificate-errors",
        "--disable-blink-features=AutomationControlled",
    ],  # 自定义浏览器渲染参数
    xhr_url_regexes=None,  # 拦截xhr接口,支持正则,数组类型
    auto_install_driver=True,  # 自动下载浏览器驱动 支持chrome 和 firefox
    use_stealth_js=True,  # 使用stealth.min.js隐藏浏览器特征
    xxxx=xxx,
    xxx2=xxx2
)

Bug Fixes

  1. 修复浏览器渲染模式下的代理bug
  2. 修复delete_keys的bug

v1.7.8

3 months ago

更新

  1. 响应的html支持指定是否拼接绝对连接
  2. 优化命令行,支持创建TaskSpider
  3. 下载方法单独抽离出来,方便扩展
  4. 优化tools.del_html_tag 函数

v1.7.7

4 months ago

更新

  1. AirSpider 支持设置内存任务队列最大缓存的任务数
    # 内存任务队列最大缓存的任务数,默认不限制;仅对AirSpider有效。
    TASK_MAX_CACHED_SIZE = 0
    
  2. 新增TaskSpider爬虫,内部封装了取种子任务的逻辑,内置支持从redis或者mysql获取任务,也可通过自定义实现从其他来源获取任务

Bug Fixes

  1. 修复 request.copy()的bug

v1.7.6

5 months ago

Bug Fixes

  1. 修复去重库bug

v1.7.5

5 months ago

更新

  1. 去掉锁的,允许同时生产cookie
  2. 优化collector
  3. 修改默认webdriver的配置,避免selenium被检测到
  4. 支持飞书报警
  5. response 支持from_text
  6. 默认开启自动适配浏览器版本
  7. 修改爬虫并发数的默认值为32
  8. 优化框架核心调度,加快调度速度且减少CPU占用

Bug Fixes

  1. 修复浏览器渲染模式下,没拼接params的bug
  2. 修复redis锁的bug
  3. 修复download_midware指定多个时,序列化报错问题

v1.7.3

8 months ago

更新

  1. 支持自动安装 selenium驱动
  2. redisdb 支持统计redis使用情况
  3. feapder 支持zip压缩命令,会过滤掉.git .pyc等无用的文件及文件夹(压缩项目 上传到feaplat很方便)
  4. 命令行工具改为从剪切板读取内容,解决内容过长控制台不能输入问题
  5. 浏览器渲染添加xhr_data函数

Bug Fixes

  1. 修复去重库 redis连接问题

v1.7.2

9 months ago

更新

  1. 浏览器渲染模式-chrome 支持指定下载保存路径
  2. 优化邮件报警:当收件人为多人时收件人处显示为多人
  3. 爬虫集成支持传参
  4. 浏览器渲染模式支持拦截XHR数据

Bug Fixes

  1. 修复打点监控已知问题

v1.7.1

11 months ago

更新

  1. cookie池改为用户池,更易使用,详见:https://boris.org.cn/feapder/#/source_code/UserPool
  2. 兼容maria数据库
  3. 以扩展的方式提供pgsql入库管道,详见:https://github.com/Boris-code/feapder_pipelines

Bug Fixes

  1. 修复mongo更新bug
  2. 修复创建item bug