社交媒体到底有多大?它真的算得上“大数据”吗?

社交媒体已经成为“大数据”的同义词,这得益于其广泛的可用性和作为全球对话驱动因素的地位。其庞大的规模、快速的更新速度和广泛的内容模式经常被引用为教科书式的例子,说明在当今数据泛滥的世界中,什么才是“大数据”。然而,如果我们仔细观察,社交媒体真的比传统的数据来源(如新闻)大那么多吗?
2019-02-15 15:30:46     来源:华云网

社交媒体已经成为“大数据”的同义词,这得益于其广泛的可用性和作为全球对话驱动因素的地位。其庞大的规模、快速的更新速度和广泛的内容模式经常被引用为教科书式的例子,说明在当今数据泛滥的世界中,什么才是“大数据”。然而,如果我们仔细观察,社交媒体真的比传统的数据来源(如新闻)大那么多吗?

如今,我们把社交媒体平台视为“大数据”的缩影。然而,缺乏对这些平台的外部可视性意味着,我们几乎所有的评估都是基于那些公司选择向公众报告的手工挑选的统计数据,而这些数据(如“活跃用户”)不断地发展,用以反映整个社交媒体。

我们对社交平台的崇敬,在很大程度上来自于这样一种信念: 它们的服务器拥有难以想象的海量全球人类行为档案。但这些档案是否比之前的媒体如传统新闻要大得多呢?

Facebook去年公布了其首个大型研究数据集,该数据集由“一个千兆字节的数据组成,几乎包含Facebook全球用户查看过的公共网址,以及他们在何时、被何种类型的人进行了点击。”尽管它的大小为千兆字节,但实际的行数估计相对较小。总的来说,数据集在公布时预计只包含300亿行,一旦完成,每周在3亿个帖子中以200万个唯一URL的速度增长。

对于许多研究人员来说,300亿行数据听起来是一个庞大的数据量,在他们的有生之年是不可能分析完的。然而,以现代标准衡量,300亿条记录是一个相当小的数据集,而千兆字节作为“大数据”的基准早已过时。

事实上,自2018年3月以来,开放数据GDELT项目已经从全球新闻机构的主页上收集了超过850亿个外链,只用了一半的时间就比Facebook的数据集大2.8倍。

与新闻媒体相比,社交媒体并没有那么大。只是我们在历史上就没有将新闻媒体视为大数据的工具。相比之下,社交媒体从一开始就积极地标榜自己为“大数据”,其数据格式和API机制旨在最大化其对现代分析的可访问性。

在短短的13年时间里,Twitter已经成为了解全球社会的大数据革命的实际面孔。它的数千亿条推文给了它“量”,它每天的数亿条推文给了它“速度”,它的文本、图像和视频的混合提供了“多样性”。

Twitter到底有多大?

该公司本身不再定期发布每天发送多少条推文的报告,也不再发布自公司成立以来每天发送多少条推文的报告,也没有立即回复记者的置评请求。然而,根据以往的研究,我们可以合理地估计,如果这种趋势保持下去的话,自twitter 13年前成立以来,已经有超过1万亿条推文被发送。

乍一看,一万亿tweet听起来是一个非常大的数字,特别是考虑到这一万亿tweet中的每一条都由一个JSON记录和许多字段组成。然而,tweet非常小,历史上最多只能显示140个字符的文本。这意味着,虽然有很多tweet,但是每一条tweet都说得很少。

事实上,很少有推文能接近Twitter 140个字符的历史限制。英语推文的平均长度约为34个字符,日语推文的平均长度约为15个字符,反映了每一种语言中单个字符所传递的信息的不同。

此外,尽管Twitter的原始数据可能相当大(2012年10月的数据为2.8TB),但Twitter记录中只有4%是推文本身。剩下的96%是Twitter提供的关于每个tweet的所有元数据和JSON的低效存储格式的组合。

由于大多数Twitter分析都聚焦于每条tweet的文本,这意味着进行普通社交分析必须处理的实际数据量非常小。

假设所有一万亿推文的长度都不超过140个字符,那么只会产生140TB的文本(如果考虑UTF8编码,实际数字会略高一些)。

2012年,twitter的平均推文长度是74字节(字节不同于字符,它占非ASCII文本UTF8编码的额外长度),这意味着这一万亿推文只会消耗74TB的文本:一个很大的集合,但几乎是不可管理的。

如果我们从2012-2014年的Twitter趋势推断,估计大约有35%的所有万亿推文被转发(假设转发行为没有重大变化),那么使用74字节的平均长度只会产生48TB的唯一文本。

当然,这是在大约三分之一的tweet中发现的超链接被删除之前(假设自2014年以来一直存在这种趋势)。它还忽略了推文中“@username”引用的普遍性,这些引用对可分析文本没有贡献。

相比之下,2010年出版的谷歌图书NGrams集合占所有已出版图书的4%,总字数为5000亿单词(3610亿英语单词),估计大小约为3TB。这将使它比Twitter的总体规模小25倍。互联网档案馆收集的英语公共领域书籍总量约为450GB,是Twitter的86倍。

谷歌和互联网档案馆的数字化藏书中,每本书只有一份拷贝,因此,将它们与Twitter的海量转发量进行比较是不公平的。过滤掉转推,我们发现Twitter仅仅是谷歌Books NGrams source集合的16倍,而Internet Archive的public domain Books集合大约是54倍。

这是对数字时代的一个非凡评论,仅仅13年的tweet就超过了当今研究人员所能获得的两个世纪的数字化书籍。

这在一定程度上是由于我们的历史中只有这么一小部分是数字化的(在谷歌books NGrams数据集中,只有不到4%的已知出版书籍是数字化的)。本质上,我们是在比较推特13年的历史和仅仅4%的两个世纪的书籍样本。

一个更大的因素是数字时代出版经济的根本改变。在上述两本合集出版的两个世纪里,出版一本书的成本非常高,以至于很少有作者虽然很努力但是依然很少人能够出版书籍。相比之下,在Twitter时代,一个人的发布量只受到打字速度的限制。

这意味着,要真正将Twitter的大小与其他数据集进行比较,我们应该将其与类似的原生数字集合进行比较。考虑到上述新闻数据集在短短一半的时间内几乎是Facebook数据集的三倍,Twitter如何与传统新闻相比呢?

从2014年11月至今,GDELT项目监控了大约3TB的新闻文章文本(仅计算文章文本本身,而不包括周围HTML、CSS、JavaScript和图像的数百tb)。

在同一时期,我们可以根据之前的趋势估计Twitter可能发布了6000亿条tweet,其中3300亿条不是转推(假设趋势是随着时间的推移转推的数量不断增加)。

如果每条推文的最大长度为140个字符,或者使用74个字符的平均推文长度约为44TB,那么在此期间的文本长度约为84TB。如果不考虑转发量,这一数字将降至24TB(假设推文的平均长度)。

新闻内容可以包含由多家媒体转载的联合通讯社报道,但此类转载的数量,如占每日新闻产出总量的百分比,不太可能与转发的重要性相提并论。

将2006年至今发送的所有数万亿条推文计算在内,假设所有推文的最大长度为140个字符,那么Twitter的存档文件将仅为GDELT监测的2014年全球在线新闻输出的47倍。如果使用更实际的平均推文长度,推特的大小将仅为25倍,删除推文的大小将仅为16倍。

当然,这些数字将Twitter 13年的新闻时间与4年的新闻时间进行了对比。

在同一四年的时间里,我们对比了这两个数据,发现Twitter的规模大约是新闻的15倍,但如果删除转发量,Twitter的规模仅为新闻的8倍。

因此,如果一个人能够访问完整的Twitter firehose 2014-present,那么在同一时期内,文本的总量可能仅为在线新闻内容总量的8倍左右。

从这个角度看,Twitter是很大的,但它并不比全球新闻大多少,我们要注意的是每天全世界有多少新闻被发布。

很少有研究人员能够接触到完整的数据,所以最大的学术研究通常是使用Twitter Decahose进行的,它包含了大约10%的每日推文。

2014年至今的Decahose总产量仅为新闻产量的1.5倍。删除了转发,情况就颠倒过来了,新闻实际上比Twitter的Decahose大1.2倍。

很少有大学有财力订阅Twitter Decahose,因此绝大多数学术Twitter研究都是通过Twitter的搜索API或1%的流媒体API进行的,后者提供了大约1%的每日tweet。

在此期间,新闻流量实际上是Twitter 1%流量的6.7倍。如果转发被删除,新闻量将增加到Twitter的12.2倍。

因此,就大多数学者研究的1%的数据而言,Twitter在过去四年的数据实际上比同期全球在线新闻产出要小好几倍。那些有幸与Decahose打交道的学者,内容仍然比他们从新闻中得到的要少。然而,即使你有整个Decahose可供你使用,这些内容的总和也只是新闻内容的8倍。过滤掉所有的超链接和用户名引用会进一步降低这个数字。

简而言之,Twitter无疑是一个庞大的数据集,但就大多数分析关注的实际文本tweet内容而言,我们看到,由于tweet的微小,一万亿条tweet实际上无法生成那么多文本。在许多方面,Twitter比传统的基于内容的平台更接近于行为消息传递数据,尤其是Twitter的转发行为与其他平台的“赞”和“参与度”指标相对应的方式。

最重要的是,我们看到,即使是在完全的firehose级别上,Twitter实际上也没有比它之前的传统当代数据集(如新闻媒体)大多少。Twitter可能更快,但没那么大。就大多数研究人员使用的Decahose和1%的产品而言,新闻媒体实际上提供了更大容量的可分析内容,其来源、稳定性和历史背景都能得到更好的理解。

综上所述,“大数据”时代的共识是,社交媒体巨头在数据领域占据着至高无上的地位,他们的档案形成了“大数据”的定义。“然而,正如我们在这里看到的,一兆条tweet很快就变成了几十兆兆字节的实际文本,这提醒我们,像Twitter这样的高速小消息流可能包含非常大的记录计数,但与我们的分析相关的实际数据非常少。”

同样重要的是,我们看到像新闻媒体这样的传统数据源实际上和我们使用的社会档案一样大,这让我们想起了除了社交媒体的新奇之外,还有大量未开发的数据源。

Twitter当然符合“大数据”的所有定义,但如果我们仔细观察,就会发现,优秀的传统新闻也不会落后太多。不同之处在于,社交媒体积极地将自己标榜为“大数据”,而新闻业未能为数字时代重塑品牌。

最后,与其将社交媒体神话化为“大数据”的终极体现,倒不如创造性地思考如何利用身边未开发的海量数据,将其带入大数据时代。

科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号(kjxw001)及微博(中国科技新闻网)
微信公众号
微博

免责声明

中国科技新闻网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。


推荐阅读
已加载全部内容
点击加载更多