Webinfo Crawler Save Abandoned

天眼查爬虫&企查查爬虫，指定关键字爬取公司信息

Project README

天眼查、企查查公司信息爬虫

使用说明

设置用户状态

抓包工具抓包天眼查、企查查小程序，设置请求头用户鉴权信息，在各自目录的init.py文件中。可在此处配置随机UA，项目地址：fake_useragent

设置数据源

MYSQL_CONFIG = {
    'develop': {
        'host': '192.168.1.103',
        'port': 3306,
        'db': 'enterprise',
        'username': 'root',
        'password': 'root@123'
    }
}

执行db/data.sql生成数据结构
配置IP代理config/settings, 开启global proxy前请先自行部署ip代理池，项目地址：proxy_pool
```
# 全局代理控制, 
GLOBAL_PROXY = True
PROXY_POOL_URL = "http://localhost:5010"
```

设置爬取关键字qichacha&tianyancha

keys = ['Google'] # 设置爬取列表
crawler.load_keys(keys)
crawler.start()

Schedule List

功能	日期	状态	备注
鉴权Token提取		待完成
内置IP代理		待完成
防封策略		待完成
容器化运行		待完成

Please Kindly Note That

程序员技术交流tg群，欢迎大家加入！！！

内有技术交流！工作内推！远程工作！兼职、私活儿！！。

Telegram群链接：程序员社区https://t.me/+iZK2y8zMUiE0NDE1

群二维码：

Open Source Agenda is not affiliated with "Webinfo Crawler" Project. README Source: bouxin/company-crawler

Stars

558

Open Issues

Last Commit

1 year ago

License

MIT

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/webinfo-crawler"><img src="https://www.opensourceagenda.com/projects/webinfo-crawler/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

How to Choose Which Programming Language to Learn First?

From the blog

Dec 11, 2022