前文介绍了Scrapy爬取CL的成人文学区文章列表,本文介绍如何进行一些简单的数据分析。本文为分析过程中记录的交互式笔记。
说明
本文对X榴成人文学区抓取文章标题2000条信息进行分析.抓取的数据格式为:
- lit_type
- lit_title
- lit_url
- lit_writer
- lit_submit
- lit_comments
- lit_last_comments
存储在MongoDB实验云存储上。 使用pymongo前安装
pip install pymongo dnspython
先导入必要的库,并对画图做一些基本的配置
1 | import pandas as pd |
数据读取
从数据库中读取所有的文章数据,并格式化到Pandas的DataFrame里
1 | client = pymongo.MongoClient("mongodb+srv://用户名:密码@xxxx.mongodb.net/test?retryWrites=true&w=majority") |
对数据做一些筛选处理,前20个数据应该是网站的公告,丢掉了事。另外将一些文本格式的日期形式做一下转换,转换为datetime格式,将评论数量转换为数字格式。
1 | items.drop([i for i in range(0,21)},inplace=True) |
数据分析
做完以上数据转化后我们简单做一些分析,首先看一下哪个作者是最高产的?原理是“东京热”网友
1 | items['lit_writer'}.value_counts().head(20).plot(kind='bar') |
哪个时间段发布和评论小黄文最集中?
1 | items['lit_submit'}.value_counts().plot(kind='line',subplots=False) |
评论看最热文章?可以看出连载文章是评率最多的,也许是因为作者用
1 | items_title_idxed = items.set_index('lit_title').sort_values(by='lit_comments',ascending=False).head(10) |
以上就是一些简单的分析。这些数据还可以做哪些分析?或许可以用自然语言处理的一些工具做如下处理
- 哪类文章最受欢迎?
- 哪类文章创作率最高?
- 能不能自己创作小黄文?
待续……