如何预测社交网络的突发热点事件

译文
开发
现实生活中经常有突发热点事件,例如突发热点新闻,突发疫情,突发信息安全事件等等。如果能够提前预测突发事件,不仅能够防止重大安全事件的发生,在某些商业应用场景下还能带来高额的商业收益。不管是在学术界还是工业界,突发热点事件都是研究和关注的重点。

【51CTO.com快译】现实生活中经常有突发热点事件,例如突发热点新闻,突发疫情,突发信息安全事件等等。如果能够提前预测突发事件,不仅能够防止重大安全事件的发生,在某些商业应用场景下还能带来高额的商业收益。不管是在学术界还是工业界,突发热点事件都是研究和关注的重点。

信息瀑布模型(Information Cascades)是近年来社交网络分析的研究热点。信息瀑布模型主要研究社交网络中信息的扩散情况,例如豆瓣网对某本书点赞行为的扩散模型。信息瀑布模型在学术界和工业界引起了广泛的关注。Facebook 作为全球***的社交网站,对信息瀑布模型也非常的重视。本文编译自知名国际会议 WWW 2017 年 Facebook 和弗吉尼亚理工联合发表的论文 Detecting Large Reshare Cascades in Social Networks。

信息瀑布模型可以归约为如下问题:判断社交网络中某个时间什么时候会产生爆发式的流行行为。因为这种爆发式的流行行为非常的少见,并且是爆发式的,因此传统的一些算法会受到极大的影响。如果用分类的方式对问题进行预测,会导致不均衡分类问题;如果用时间序列分析的方法来对问题建模,因为爆发式的流行行为与时间序列的平滑性等要求不符,因此也很难对问题进行好的刻画。而生存分析技术能够很好地解决这一问题。

Facebook 为了解决这类信息瀑布模型问题,提出了 SansNet 方法。问题的场景是为了刻画网站上转播行为(reshare)的信息传播模式。

首先我们定义一下什么样的行为被认为是爆发式的流行行为。Facebook 认为当转播行为超过了绝对或者相对大小的某个阈值,就认为是爆发式的流行行为,例如某个帖子被转播了1万次。问题的定义如下:

Facebook 用扩展 COX 模型对 m 个转贴时间序列进行预测。这个模型的生存函数如下:

其中 v(t) 是 t 时刻信息瀑布的大小。

爆发式流行行为可以归约为如下***化问题:

该***化问题的本质是分类问题 , 其中 是分类标签( +1 / -1) 用来标记某个帖子的转播时间序列是否是爆发式流行行为。 是每一类的误分率。这个问题的实质是通过生存概率来***化两个不同分类之间的***间隔,或者换句话来说,最小化分类问题的误分率。

SansNet 算法的伪代码如下:

SansNet 的总的时间复杂度是 O(m(|R|+T)) 。

Facebook 的研究人员选取了 2015 年 8 月8日上传到 Facebook 的 25 万个照片和视频,统计了每个小时照片/视频的转发量,将持续一周时间的数据作为实验数据集进行了算法实验。SansNet 在照片和视频上的召回率(红色线条)如下:

可以看到 SansNet 算法与线形模型、逻辑回归、树模型和随机过程模型相比有明显的优势。

SansNet 在 Top 10 热点的覆盖率如下所示:

 

 

SansNet 在 Top 30 热点的覆盖率如下所示:

 

 

Facebook 的这篇论文是 2017 年发表的***成果,具有广泛的应用场景。例如:新闻网站如新浪和网易均把热点预测作为重要的算法研究问题。另外针对社交网站例如 Twitter 上流行微博和流行主题的预测也引起了学术界和工业界的广泛关注。预测问题是大数据领域具有重要现实意义的问题,特别是长期预测,至今仍是一个充满挑战性的***。

原文标题:Detecting Large Reshare Cascades in Social Networks,作者:Karthik Subbian , B. Aditya Prakash , Lada Adamic 

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:庞桂玉 来源: 51CTO.com
相关推荐

2017-08-18 15:02:43

数据中心突发水灾

2017-06-19 15:12:30

Uber神经网络事件预测

2011-08-22 10:24:54

Linux

2010-09-06 09:27:54

社交网络

2013-10-11 12:59:04

StrixMesh突发事件

2015-06-15 10:57:34

开发者2015移动开发

2009-06-16 09:51:18

Windows APIRuby BigDecTopCoder

2011-03-07 13:45:15

2011-07-07 10:59:20

2020-03-04 16:25:54

人工智能AI

2009-08-25 09:50:05

2009-09-15 09:59:44

微软ScalaCodePlex

2009-06-30 09:40:29

Eclipse 3.4Eclipse伽利略Web Cache

2021-01-15 14:20:07

网络安全黑客汽车

2019-01-29 08:41:16

MySQL性能突发事件

2016-04-12 09:27:59

2009-07-21 11:02:15

甲骨文补丁Azure价格

2009-10-13 14:56:26

手机软件在线商店索引AJAX

2009-12-15 10:11:10

2009-11-17 10:25:17

Go语言Facebook APVisual Stud
点赞
收藏

51CTO技术栈公众号