Recent Posts

男女选秀弥漫与娱乐机器轰鸣 ——试对《人民日报》的娱乐话语进行文本挖掘与可视化 (2005-2016)

4 minute read

本研究选取了内地媒介市场化的代表节目形态之一,选秀节目,作为分析的对象;而选秀节目如雨后春笋,秉着见微知著的精神,又选取了“音乐类选秀节目”作为分析的重点。本研究通过中文LDA主题模型的方法,分析党报《人民日报》过去12年间对音乐类选秀节目的话语主题,从而归纳其主旨,并对结果进行可视化。

中国交通事故媒介日记

less than 1 minute read

在2000-2014年这15年间,全国各个省份在媒体报道中的交通事故数量和死亡人数随时间的变化趋势。

利用python实现knn算法

4 minute read

NBA历史上与这些超级球星处于同一位置的球员都有谁?这些球员是否能依据某种原则进行分类?能否通过一些算法来预测他们的赛场表现? 根据NBA官网上的部分统计数据,我进行了如下实践。

对《政府工作报告》进行文本挖掘

less than 1 minute read

3月5日上午,十二届全国人大四次会议开幕,国务院总理李克强作政府工作报告,系统总结了2015年政府工作,并为转型期的中国经济发展提出了新的方向。分析《政府工作报告》成为社会各界关注两会的重要视角。为了更好地理解《政府工作报告》,本文对自1954年以来的47次《政府工作报告》的文本进行自动化分析。

Mlxtend简介

1 minute read

Mlxtend是一个基于Python的开源项目,主要为日常处理数据科学相关的任务提供了一些工具和扩展。

标度行为的几何模型

1 minute read

这个几何模型,不仅适用于物理空间,也适用于抽象空间(abstracted space)。前者包括城市、因特网的autonomous systems、大脑,后者包括相似性空间(similarity space,如引文网络、科学合作网络、在线社区)、语义空间、生态位空间(niche space)。

新闻地图项目与gdelt数据介绍

2 minute read

中国新闻地图是一个以可视化的方式反映中国新闻在时间与空间分布的差异性的网页应用,利用gdelt已有历史数据作为数据源,通过多样化的统计图表对中国新闻进行展示。