中国领先的IT技术网站
|
|

【51CTO 网+】如何用数据驱动用户体验

5月28日,近百位移动开发者再次相聚于【51CTO 网+】线下公开课现场,与火线数据创始人兼CEO、前小米数据工场负责人卢学裕、神策数据CTO曹犟、AdMaster资深架构师刘喆三位移动领域数据分析大牛一起,聚焦如何用数据驱动用户体验,大话数据之美。

作者:于雪来源:51CTO.com|2016-05-28 19:32

沙龙活动 | 去哪儿、陌陌、ThoughtWorks在自动化运维中的实践!10.28不见不散!


现在,没有人会质疑移动互联网在人们生活中的重要性,“一切都是数据”也将成为其必然的趋势。经过了几年的发展积累,大数据的三个特质越来越明显:量大、多样、实时。未来要做的,就是利用数据加速PC网络到移动互联网的更迭过程,使移动互联网成为人们获得更为便利、高效服务的途径。

对于移动应用来说,更多的是在于如何通过数据挖掘改善产品体验、差异化竞争、产生商业价值,达到改善用户体验,增强用户黏性的效果。

5月28日,近百位移动开发者再次相聚于【51CTO 网+】线下公开课现场,与火线数据创始人兼CEO,前小米数据工场负责人卢学裕、神策数据CTO曹犟、AdMaster资深架构师刘喆三位移动领域数据分析大牛一起,聚焦如何用数据驱动用户体验,大话数据之美。

火线数据CEO卢学裕:用推荐技术做个性化运营

首先演讲的卢学裕曾担任过优酷土豆大数据团队技术总监,打造了优酷土豆的大数据开放平台、数据分析、数据挖掘、推荐系统等。结合优酷土豆大数据平台研发过程中的经验,卢学裕谈到用户的行为数据都是有价值的,不同的行为有不同的作用。

关联规则算法是最为常用,且能发挥很大价值的一种算法,它的逻辑是从数据背后发现事物之间可能存在的关联或者联系。作为数据挖掘的主要方法,关联规则算法的分析与优化一直备受关注。

关联规则通过形如X→Y的蕴涵式,找到两件看似风马牛不相及的事情之间的依赖关系。最经典的一个例子是“啤酒和尿布”。它的劣势可能是对长尾关键词的覆盖率较差。卢学裕阐述了一些经典关联规则可能带来的误区,比如森林法则。具体来说,越热的视频越容易与人产生关联。但他们发现对热度视频进行推荐的效果并不好,因为他们尝试了一种“打压热度”的做法,对“热度”开三次方,做变型,反而使推荐效果得到提升。这其中的原因之一就是由于热视频的森林法则,在短时间内会有大量的用户通过不同途径分享,微博、朋友圈等等,很多用户已经看过了,所以再推荐就不会得到很好的效果。

神策数据CTO曹犟:数据分析平台的搭建与应用

接下来,作为“百度系”创业团队的CTO,曹犟向在座同学们分享了在他看来,一个合格的数据分析平台应该具备哪些特征,以及现有解决方案的一些局限。

对于现在的很多企业来说,通常认为有了仪表盘,就等于有了数据分析平台;多个业务部门人员排着队等某个工程师跑数据的画面屡见不鲜。的确,现在优秀的数据分析人才非常缺乏,企业只能强迫IT工程师来完成一些数据分析的工作,这样的一种“强迫”行为,不仅数据分析来的深度和精度远远不够,也对工程师个人的职业生涯发展非常不利。

所以,让参与业务的人员真正掌握数据,才是数据分析的王道。那么一个合格的数据分析平台应该实现哪些功能呢?

  1. 灵活适应公司与产品的快速发展
  2. 为处理海量数据提供易于扩展的技术方案
  3. 将繁杂数据整合为强大而简洁的模型
  4. 让每个业务参与者能够提出问题,回答问题,用数据驱动决策

曹犟认为,数据分析的方法主要是首先是定义关键指标,通过数据发现问题、验证方案,最终借助数据指导大方向决策。BI只是数据频用的一部分,数据分析最主要的作用还是将分析结果直接反馈到产品中,通过对用户推送、个性化推荐、反作弊、精准投放等环节的优化,提升用户对产品的体验。

Admaster架构师刘喆:大数据如何改变互联网监测行业

最后一位进行分享的是来自Admaster的架构师刘喆。他谈到,说起大数据,就不得不提到Google的三驾马车,也就是Google在2003年至2004年公布的关于GFS、MapReduce和BigTable三篇技术论文。

这三驾马车直接将开源大数据平台Hadoop推向火爆。开源大数据系统的主要组成部分为:

  • 超级存储
    • HDFS/HBase
  • 超级计算模型
    • 批处理 MapReduce/Pig/Hive/Spark/Flink
    • 流式处理/实时计算 storm/jStrom/Heron/Spark/Flink (java -> scala)
    • 多维查询/即席分析 ES/Druid/pinot
  • 超级KV系统 
    • Tair/redis/aerospike
  • 解耦/合作
    • RabbitMQ/Kafka/RocketMQ

对于开源的大数据技术来说,纵然有很多非常强大的功能和特性,但世上本来就没有完美的技术。为了更好地利用这些大数据技术优化和改进互联网监测,还需要进行很多改进和规划,要考虑的方面可能包括一些周边系统、不同格式的数据交换等等。

各位专家都不约而同提到,数据分析不应该仅仅作为一个短期的项目。作为一个系统性的工程,初期看不到明显的效果再正常不过,它需要经历不断的优化和改进。因此,在构建数据平台之初,就要将技术能力、人力投入、资金和设备支持等环节,纳入长期的归划当中。

【51CTO 网+】线下公开课每月一期,已连续举办十二期,得到来自用户的支持和喜爱。我们将继续围绕移动开发者切实需求切入,为广大移动开发者提供交流和学习的平台。

【责任编辑:Ophira TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

C#入门经典(第3版)

本书将全面介绍C#编程的所有知识,共分为5篇:第1篇是C#语言:介绍了C#语言的所有内容,从基础知识到面向对象的技术,应有尽有。第2篇是Win...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× Python最火的编程语言