同人志h,你拍一我拍一,一达通,汪清生活网,cf10,槟榔
新闻源目前支持如下:
>获取获取后,可以存csv也可以存Excel,或者存数据库都可以,这样就完成了原始数据准备。
分词处理
借助Python jieba分词工具,我们可以快速的实现文本的分词功能。同时可以设置关键字黑名单和白名单,过滤不需要的,提取想要的关键词。
>按日期处理分词之后,我们可以对词频进行统计,生成一个完整的词频csv文件。
为了让大家更好地完成本次实验,我们直接提供已经完成统计的csv文件供大家下载,请在文章末尾获取下载方式。
词频统计分析
新闻词云统计
对于最具影响力的新闻节目,可能很多人第一想到的是哪些关键词出现的次数最多?对于常见新闻词语,一定逃不出你的预料之中,下面这个词云图可以验证你的判断。
>实现词云非常方便,前提是你已经准备好了词频统计。幸运的是,我们为你提供了现成的词云统计csv文件,在下载的文件中可以找到一个all.csv的文件。
>正如你所看到的,我们借助了pyecharts这个工具来实现可视化。以下所有图形效果都是借助pyecharts来实现的,更多具体的使用可以自行学习echarts和pyecharts的知识来加强图形制作能力,这里不做太多的介绍。
新闻分类统计
除了新闻联播常见关键词,我们可能还想知道一些特定词语出现在新闻联播的次数,以便了解该类信息受关照程度,比如在过去10年当中,哪些省份和省会城市最受新闻联播关注?
我们将各省在新闻联播出现的数据进行分年统计,然后通过柱状图的形式展示出来。
>
>通过上图我们可以知道,作为首都的北京毫无疑问是关注最多的地方。而在每年因为不同的政治、经济或者文化事件,不同的省出现的频次也呈现出一些差异。
比如2018年在政策上对海南的倾斜,对珠三角的关注等,而在2017年香港回归20年,河北雄安新区的提出等事件,让这些地方备受关注。
同样的方法,我们也可以对各省会城市出现的频次进行按年份统计。
>可以清楚的看到,在2009年乌鲁木齐因暴恐事件受到了极大的新闻关注,而海口在近两年开放海南的大背景下也成了新闻联播的常客。
如果柱状图看的不够清晰,我们可以借助地图热力方式来显示各省收关注程度可能更清楚。
>
>在热力地图上,颜色越深表示受关注越大,我们看到北京最红,而东部沿海比西部,东北要比内蒙受关注更多。
今天的文章新闻联播数据集_基于Python的天气预测系统研究分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/85678.html