NewsScrapy Save

基于scrapy的新闻爬虫

Project README

NewsScrapy

基于scrapy、selenium、beautifulsoup、pyvirtualdisplay的新闻爬虫

问题:

一财网:js生成cookie,无法直接访问,使用selenium解决;

中国经营报:直接访问会报521错误,js生成cookie后重定向才能得到首页,phantomjs并不能解决这个重定向,但Firefox可以解决。

为了不让浏览器打开,用了headless-firefox。具体教程参考:http://scraping.pro/use-headless-firefox-scraping-linux/ 使用selenium和scrapy结合代码可看yicai_spider.py

包括列表有:

公众号 帐号

  • 中国民航网 caacnews-officials
  • 里屋里酒店咨讯 liwuli-hotels
  • 航旅同行 travelskygds
  • 航企哪些事儿 ThingsOfAirlines
  • 航旅IT圈子 icarnoc
  • 民航资源网 bvnagzine
  • 商业价值 wow36kr
  • 36氪 huxiu-com
  • 虎嗅网 guifabucom
  • 硅发布 pinchain
  • 品橙旅游 wepingwest
  • pingwest中文网 GP4008202018
  • 智慧旅行 ctcnn1
  • 劲旅网 dotours
  • 旅游圈 meadin1
  • 迈点网 thepapernews
  • 澎湃新闻 qqtech
  • 腾讯科技 zglybs
  • 旅界 lvjienews
  • 旅游商业观察 ph1240888257
  • B座12楼 B1-12F
  • BBTtravel BBTtravel
  • 华丽志 LuxeCO
  • 在线旅讯 otadaily
  • 酒店内参 ehotelier
  • 星硕袁学娅专栏
Open Source Agenda is not affiliated with "NewsScrapy" Project. README Source: yinzishao/NewsScrapy
Stars
91
Open Issues
3
Last Commit
4 years ago
Tags

Open Source Agenda Badge

Open Source Agenda Rating