收集新浪微博数据
http://s.weibo.com/wb/%25E7%25A9%25BA%25E6%25B0%2594%25E6%25B1%25A1%25E6%259F%2593&xsort=time®ion=custom:11:1000×cope=custom:2013-07-02-2:2013-07-09-2&Refer=g
固定地址部分:http://s.weibo.com/wb/
关键字二次UTF-8编码:%25E7%25A9%25BA%25E6%25B0%2594%25E6%25B1%25A1%25E6%259F%2593
排序为“实时”:xsort=time
搜索地区:region=custom:11:1000
搜索时间范围:timescope=custom:2013-07-02-2:2013-07-09-2
可忽略项:Refer=g
显示类似微博:nodup=1 注:这个选项可多收集微博,建议加上。默认不加此参数,省略了部分相似微博。
某次请求的页数:page=1
另外,高级搜索最多返回50页微博,那么时间间隔设置最小为宜。所以该类设置为搜集一定时间段内最多50页微博
依赖包:lxml(解析网页)、py2exe(编译成windows窗口程序依赖包)。
运行方法:
your_cookie
;python fetch_weibo_by_keyword.py
; windows 编译窗口程序方法:windows进入控制台,运行python setup.py py2exe,即可生成window窗口程序。思路:
依赖包:yaml(搜集参数)、pymongo(连接数据库MongoDB)。
运行方法:命令行直接运行python fetch_weibo_by_geo.py
。
配置文件:详见config.yaml文件.