计算传播学导论

序言

伴随着大数据时代的到来和人类科学研究的发展,计算社会科学成为了二十一世纪科学发展的重要方向。其中,可计算思维、工具与方法开始在传播学科当中发挥越来越重要的作用。基于此,计算传播学应运而生。计算传播学是计算社会科学的重要分支,它主要关注人类传播行为的可计算性基础,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具。(以非介入方式)大规模地收集并分析人类传播行为数据、挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理。可以被广泛地应用于数据新闻和计算广告等场景。注重编程训练、数学建模、可计算思维。

为了更好地界定计算传播的理论框架和实际应用、同时也是为了学习和应用计算传播学研究方法,我酝酿开设了《计算传播学》工作坊课程。工作坊的主要参与者是南京大学新闻传播学院2014级的研究生。而本书主要致力于总结在这个过程当中关于计算传播学的思考。

围绕着计算传播学这一核心概念,本书将主要分为三部分,第一部分介绍计算传播学的理论起源,包括“计算”和“传播”各自的含义及其关联,提出计算传播学的基本理论架构;第二部分,则主要介绍可计算思维在传播学研究和实务当中的应用;第三部分则主要总结前两部分内容。

计算传播学也非我有意识地选择的结果。我对扩散现象一直感兴趣,从沙堆到信息扩散,我一直认为这里面有很多值得挖掘的地方。来到香港读博之后,我主要在互联网挖掘实验室从事研究工作。读格兰诺维特的论文时,读到门槛模型,与我在读复杂性科学地书籍时所接触到多主体模型等都有关联。2008年正是社会化媒体方兴未艾大放异彩的时候,我想我或许可以采用这个模型来分析社会化媒体上的信息扩散。于是,开始分析各种基于互联网的人类传播行为数据,主要是Digg, Youtube, Twitter和Sina Weibo。

恰逢计算机科学家转向这条主线的研究,于是读了很多类似文章。但我对计算机科学家做社会科学研究很不满,因为多数研究都是会议论文,其研究发现往往不够深刻,这部分工作具有很强的数据科学的特点,强调数据挖掘和机器学习技术的使用;同时,我也注意到物理学家对于人类传播行为的研究工作,主要是统计物理和网络科学部分。对我影响最大的依然是网络科学,因为我分析信息扩散的起点就是基于关系网络和信息扩散网络展开。网络科学无疑提供了理想的工具;除此之外,计算语言学的工作使得对于传播文本的挖掘更加系统,例如主题模型鼓舞了计算人文学科的发展。与此同时,我开始放弃mathematica,学习R语言,后来又转向python语言(因为要抓数据)。

如何概括类似这些研究范式?我们一度采用了各种标签,比互联网数据挖掘、如统计物理、人类动力学、社会物理学、社会计算,但都不贴切。2011年,我在和实验室的同学和老师讨论之后,提出了computational communication的提法。当然,此时距离Lazer等人在2009年提出计算社会科学已经是三年之后了。之后,大家发现这个提法很好地概括了我们的研究兴趣和研究方向,于是就慢慢开始使用这个词语。2012年建立了豆瓣计算传播学小站。2013年,互联网挖掘实验室推出了一系列的计算传播研究工作坊,2014年我到南大之后,筹建了现在计算传播学实验研究中心。我们开始参与一些计算社会科学为主题的国际会议,在与其他学科的研究者交流的时候,采用计算传播学研究者介绍自己的工作。

本书是采用Gitbook撰写并发布的,因此需要感谢Gitbook团队和Github网站。Gitbook是一个基于markdown发布电子书的网站。它提供免费的在线编辑界面和单机编辑器。Gitbook非常好地支持了markdown写作,包括数学公式的展现和编程代码的显现。

囿于作者所见,文中难免疏漏,同时也有很多值得讨论的地方。读者可以在这里阅读本书网络版本:http://chengjun.gitbooks.io/computational-communication/content/index.html ,并可以通过github提交关于本书的修改意见。

王成军

2015年3月5日,南京