Tieba Zhuaqu Save

百度贴吧分布式爬虫，用于贴吧数据挖掘。从贴吧维度和用户维度进行数据分析

Project README

百度贴吧分布式爬虫

版本

【v0.9】 @ May 6 2017 -> 0813bc127125438b71dfee6dc9a3153661c8d629

简介

该分布式爬虫可以抓取贴吧帖子内容并进行相关数据分析（详情见数据分析示例）。

目前该系统内部自带了4个插件用于数据分析，你可以给它贡献更多插件（插件由Python编写）

该爬虫系统主要由3部分组成：TaskManager任务管理服务器，KCrawlerManager用户端管理软件（KCrawlerController），Cralwer爬虫程序

在你继续往下读之前：

如果你只是简单的想使用这个软件爬取信息并加以分析，你需要下载以下文件：

tieba-zhuaqu：贴吧抓取主程序（请运行RunTest.bat）
KCrawlerControal:需要使用这个软件里面的数据分析模块

在开始之前请确认你已经安装python3.5以及后面提到的第三方库。

** 建议使用数据库版本（以DSV开头的）

** 注意：你需要将AttachImport文件下的ktieba文件夹放入C盘根目录，才能够正常运行。

语言及环境

Python3.5.1

C++

Visual Studio 2015

建议你安装64位的python，否则可能会出现memory error

文件结构

所有以DSV开头的文件夹代表其对应的数据库版本（Database Support Version）（默认为任务结果文件版本）

shareLib:系统组成三部分的共享库，定义报文，网络交互操作
task-manager：TaskManager任务管理服务器
tieba-zhuaqu：KCrawler爬虫主体
user-application：KCrawlerManager用户端管理软件KCrawlerController
DataAnalyzer：数据分析套件（从user-application中独立出来的）

数据库结构见下图：

第三方库

matplotlib：用于对数据进行可视化分析

numpy：用于对数据进行可视化分析

jieba中文分词：用于中文分词以及关键字提取

数据分析模块

**测试数据下载地址：http://pan.cuit.edu.cn/share/7FF9yiO5 （提取码：cm8p）

数据分析示例见文档末尾

开发状态

开发中...

授权条款：GPL

GPL

数据分析示例

目前自带的数据分析插件可以完成以下几种类型的分析：

对比统计多个词语（multiwords）

显示某个词语的词频-时间图（wordstimeline）

分析特定用户

分析某位用户的贴吧活跃度（userX）

分析某位用户的高频关键字（userX）

分析某位用户的贴吧活跃时间段（userX：通过叠加每日活跃时间段）

Open Source Agenda is not affiliated with "Tieba Zhuaqu" Project. README Source: ankanch/tieba-zhuaqu

Stars

Open Issues

Last Commit

4 years ago

Repository

ankanch/tieba-zhuaqu

License

GPL-3.0

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/tieba-zhuaqu"><img src="https://www.opensourceagenda.com/projects/tieba-zhuaqu/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

How to Choose Which Programming Language to Learn First?

From the blog

Dec 11, 2022