天眼查爬虫&企查查爬虫,指定关键字爬取公司信息
设置用户状态
抓包工具抓包天眼查、企查查小程序,设置请求头用户鉴权信息,在各自目录的init.py
文件中。可在此处配置随机UA,项目地址:fake_useragent
设置数据源
MYSQL_CONFIG = {
'develop': {
'host': '192.168.1.103',
'port': 3306,
'db': 'enterprise',
'username': 'root',
'password': 'root@123'
}
}
执行db/data.sql
生成数据结构
配置IP代理config/settings
, 开启global proxy前请先自行部署ip代理池,项目地址:proxy_pool
# 全局代理控制,
GLOBAL_PROXY = True
PROXY_POOL_URL = "http://localhost:5010"
设置爬取关键字qichacha
&tianyancha
keys = ['Google'] # 设置爬取列表
crawler.load_keys(keys)
crawler.start()
功能 | 日期 | 状态 | 备注 |
---|---|---|---|
鉴权Token提取 | 待完成 | ||
内置IP代理 | 待完成 | ||
防封策略 | 待完成 | ||
容器化运行 | 待完成 |
程序员技术交流tg群,欢迎大家加入!!!
内有技术交流!工作内推!远程工作!兼职、私活儿!!。
Telegram群链接:程序员社区https://t.me/+iZK2y8zMUiE0NDE1
群二维码: