针对大数据来说,2016年将是令人振奋的一年。智能算法将接替现在由人类来完成的许多业务。我们将看到数据湖服务作为一种服务解决方案出现,帮助企业以最少的工作更多的使用数据。越来越多的行业将开始试用数据区块链技术(blockchain technology)以改变他们的行业。

头条推荐

针对2016年大数据发展形势的预测

大数据是人人都关注的话题,人人都是大数据的产生者。你想知道在2016年里大数据技术发展态势是怎样的吗?本文章中提到预计机器学习、实时数据即服务、算法市场以及Spark等等都将成为发展热点......……>>详细

大数据分析技术生态圈一览

大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。

大数据分析工具

 

这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。

阅读全文

如何从零构建实时的个性化推荐系统?

这些知名公司使用推荐提供情境化的、有相关性的用户体验,以提高转化率和用户满意度。这些建议原来一般由每天晚上、每周或每月生成新推荐的批处理作业计算提供。

然而对于某些类型的推荐,响应时间有必要比批量处理作业所需的时间更短,比如为消费者提供基于地理位置的推荐。比如电影推荐系统,若用户先前看过动 作片,但现在要找一部喜剧片,批量推荐很可能会给出更多动作片,而不是最相关的喜剧片。本文将会介绍如何使用Kiji框架,它是一个用来构建大数据应用和 实时推荐系统的开源框架。

Kiji,以实体为中心数据和360度视角

阅读全文

因职业角色而异的十大数据科学技能

数据科学的实践需要三个一般领域的技能:商业洞察、计算机技术/编程和统计学/数学。与询问对象有关,具体的重要技能集合总是在变化。Dave Holts描述了得到数据科学家工作所需要的技能,Ferris Jumah通过检查带有“数据科学家”称号的LinkedIn个人资料识别10项技能,BurtchWorks提供了他们的在数据科学领域中获得成功至关 重要的技能列表,RJMetrics也使用LinkedIn数据找出了20个重要的数据科学技能。这些列表、重要技能反映了数据专业人员在他们社交媒体资 料上列出的频率,或者只是简单地代表了作者认为最好的技能集合。

 

数据科学技能和熟练程度

数据科学家

阅读全文

热点推荐:你确定你真的懂用户画像?

什么是用户画像?

在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是 “可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。

用户画像(User Profile)

阅读全文

什么是机器学习:一次权威定义之旅

在这篇文章中,我想要解决一个很简单的问题:机器学习是什么?

你可能对机器学习感兴趣或者稍稍了解。如果有一天你和朋友或同事聊起机器学习,那么一些人可能会问你“机器学习是什么”。那么,此文的目标就是告诉你一些可参考的定义,以及一个现成的、容易记起的趣味定义。

我们将从了解该领域的权威书籍上关于机器学习的标准定义出发,并且以得出机器学习的一种程序员定义和我们被问及什么是机器学习时一个随时可以使用的现成的笑话为结束。

阅读全文

你知道数据模型需要多少训练数据吗?

毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是 这取决于要执行的任务,要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方 法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的时候,或者说只有很少一点训练 数据的情况,那应该怎么办呢?

与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算和具体的经验法则。例如本文将要介绍的实证方法:首先自动生成很多逻辑回归问题。 然后对生成的每一个问题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问题上的关系总结出一个简单的规则。

阅读全文

经典原创

知微“荐”著 · 新浪微博推
2015年12月26日13:30—17:15,由51CTO和新浪微博联合主办的《知微“荐”…
WOT讲师单艺:用大数据开发
51CTO主办的高端技术峰会【WOT2015“互联网+”时代大数据技术峰会】将于11…
友盟吴磊:移动大数据平台的
友盟从2010年成立至今,在大数据领域有独特技术和宝贵经验,51CTO对友盟数…
WOT2015卢亿雷:新媒体时代
自互联网业务诞生以来,对广告业务的探索就没有停止过。随着大数据技术的进…
心理大师于际敬:技术人群心
WOT2015"互联网+"时代大数据技术峰会于今日在深圳前海华侨城GW万豪酒店盛…
51CTO杨文飞:大数据是互联
WOT2015"互联网+"时代大数据技术峰会于今日在深圳前海华侨城GW万豪酒店盛…
WOT讲师刘黎春:互联网征信
51CTO主办的高端技术峰会【WOT2015“互联网+”时代大数据技术峰会】将于11…
没有数据分析大数据什么也不
商业人士想要通过大数据来了解客户的需求,但他们必须意识到没有数据分析“…
优秀数据分析师应该具备的5
多数时候非专业人士无法有效处理收集到的数据,这正是数据科学家供不应求的…

相关推荐

挖掘更多数据 人工智能反恐
作为士兵和计算机科学家,保罗·沙克瑞恩跟恐怖主义打了14年仗。不久前,巴…
移动互联网应用数据分析基础
在2012年及2013年诸多大型互联网公司其移动端的流量已经超越PC端的流量,很…
大数据与熵:临界分析
本文通过研究数据对象的熵,对大数据方法和传统抽样方法的临界关系做了分析…
别让商务大数据的思路,误了
最近闭幕的十八届五中全会把大数据战略提高到一个前所未有的层面———实施…
数据可视化,我应从何开启?
如果您最近和我参加聚会,我在您耳边说的都是有关数据可视化工具或者最近使…
赌你认识一半!国际公司大数
据了解,互联网上每一秒钟传输的视频,需要花费一个人5年的时间才能看完。…

投    票

针对大数据来说,2016年将是令人振奋的一年。智能算法将接替现在由人类来完成的许多业务。我们将看到数据湖服务作为一种服务解决方案出现,帮助企业以最少的工作更多的使用数据。越来越多的行业将开始试用数据区块链技术(blockchain technology)以改变他们的行业。

专题推荐

前几天和长辈闲聊之下,“大数据”,竟然也从老人家嘴里蹦出来。真是 duang的一声,把我吓了一跳。大数据,
毕业季特刊:剥开大数据的层
前几天和长辈闲聊之下,“大数据”,竟然也从老人家嘴里蹦出来。真是 duang的一...
2015年两会,“大数据”成为炙手可热的一大关键词,李克强总理在政府工作报告中明确提出大数据建设行动计划
2015两会声音:大数据将无处
2015年两会,“大数据”成为炙手可热的一大关键词,李克强总理在政府工作报告中...
Hadoop 2.0,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。预计与2013年正式发布,51CTO为您
Hadoop 2.0 大数据的新突破
Hadoop 2.0,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。预计...
R语言是大数据分析和挖掘重要的工具,R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、
R语言:大数据挖掘利器
R语言是大数据分析和挖掘重要的工具,R是用于统计分析、绘图的语言和操作环境。...

一周排行

留言评论