Recent Posts

2017年计算传播学年会暨工作坊征稿

less than 1 minute read

熟悉计算社会科学研究范式并掌握基本的计算技能,是传播学者进入计算计算传播学领域的基本条件。基于此,南京大学新闻与传播学院、百度、社会媒体处理专业委员会以及香港城市大学互联网挖掘实验室拟共同举办2017年计算传播学年会暨工作坊(南京,9月22-9月24日),包括一天半工作坊 + 一天会议。

使用powerlaw拟合重尾分布

2 minute read

幂律分布的存在非常广泛, 对于很多科学研究问题具有重要意义。但是,因为幂律分布的长尾具有很大的波动,因而确定长尾的范围尤为复杂。最小二乘方法估计幂律分布会有很大的误差,即使没有误差,也并未能确定这一分布是否幂律分布,因为没有同其他的分布的形式做比较,比如指数、对数正态、截尾的幂律。Clauset等人2009年发表...

利用python实现naive bayes算法

2 minute read

贝叶斯开创了统计学的贝叶斯学派,用先验知识和逻辑推理来处理不确定命题,与古老的频率学派分庭抗礼,频率学派只从数据中获得信息,完全不考虑先验知识,即人的经验。本文尝试利用python实现朴素贝叶斯分类。

理解HITS算法

9 minute read

Hits算法通过迭代的方法来计算权威度a和导航度h。其中: 1. 节点i的权威度$a_i$利用指向它的节点的在上一轮的导航度hlast和链接的权重来决定。 2. 节点i的导航度$h_i$利用指向它指向的节点在这一轮的权威度$a_i$和链接的权重来决定。

解决python读取文本数据中的encoding问题

1 minute read

在使用python读取一些数据的实际应用当中,我们总会遇到各各种各样的encoding的问题,一般会使用utf8,中文常用的是gb18030和gbk。有时候这种问题非常令人头痛,有没有一种终极的解决方案?采用二进制的方法就可以读取,然后需要将二进制的字符串进行相应的decode,并忽略出错的地方。

2017数据新闻比赛

less than 1 minute read

由武汉大学媒体发展研究中心、财新网和中美教育基金联合主办、镝次元数据新闻研究中心承办的第三届数据新闻比赛现在开始接受报名。本次大赛将通过奖励最出色的数据新闻报道或数据研究报告来促进中国数据新闻行业和专业人才培养的发展。