Recent Posts

使用Python来实现TrueSkill算法

4 minute read

TrueSkill算法是Elo排名方法与贝叶斯规则的结合,可用于计算竞赛选手的能力排名。Dangauthier2007提出了这个方法 ,Liu2013创造性地建议使用这方法来计算问答类社区问题的难度。

使用python读取关系数据库

less than 1 minute read

我给本科生上课的时候,推荐了datacamp的cheatsheets,具体内容可以参见课程的Github页面。

中国新闻史学会计算传播学研究委员会2018年大会通知

1 minute read

中国新闻史学会计算传播学研究委员会2018年大会(简称“计算传播学年会2018”)由中国新闻史学会计算传播学研究委员会主办,北京师范大学新闻传播学院承办,南京大学新闻传播学院、香港城市大学传播研究中心/互联网挖掘实验室协办,百度赞助。会议旨在探索并推进计算传播学的发展,促进传播学与其它领域以及其他学科的对话和合作...

使用scihub.py下载论文

5 minute read

scihub.py是一个sci-hub.cc的非官方的python接口,可以在实现从谷歌学术搜索论文并从sci-hub.cc下载论文的操作。

使用python可视化地理空间数据

5 minute read

本文介绍使用python可视化地理数据,使用维基解密阿富汗战争日志数据作为例子,涵盖folium,geopandas两个主要的工具。

基于泰森多边形的网络可视化

5 minute read

Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。N个在平面上有区别的点,按照最邻近原则划分平面;每个点与它的最近邻区域相关联。本文介绍Emden Gansner, Yifan Hu, Stephen Kobourov三人所发展的GMap方法,将网...

使用python进行数据清洗

20 minute read

本文介绍使用python进行数据清洗的一个案例。在数据新闻教学当中,我们通常会介绍使用open refine进行数据清洗。不过我一贯主张采用编程的思路来进行数据清洗,以保证分析的可复制性。本文介绍使用python,尤其是pandas包对university data进行数据清洗的一个例子。

ROC分析与统计检验

2 minute read

pROC是一个进行deLong显著性检验的R包。本文介绍计算AUC、绘制ROC曲线、并进行显著性检验。

真实熵与人类行为可预测性

3 minute read

在Limits of Predictability in Human Mobility一文(Song, 2010, Science)当中,Song等人提出人类移动行为的可预测性问题。强调了采用香农熵或随机熵不能捕捉到移动位置的时间序列特点,主张采用一种真实熵(the actual entropy)的测量方式,表示...