随着互联网的发展,人们的行为方式被大幅改变,大数据时代已经来来临。近年来,数据挖掘引起了信息产业界的极大关注,大数据被广泛使用,并转换成我们需要的信息和知识。如果你刚刚涉足数据挖掘领域,就快快开启这本宝典开荒吧!

头条推荐

一分钟了解互联网数据挖掘流程

真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。……>>详细

数据挖掘领域十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

 

阅读全文

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问。有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路。

 

本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。

1.初级入门

《R语言实战》,这是高涛、肖楠等翻译的一本书详细全面介绍了入门、图形、统计、回归、方差、功效分析、广义线性模型、主成分、因子分析、缺失值处理等。除此之外,还可以去读刘思喆的《153分钟学会R》。这本书收集了R初学者提问频率最高的153个问题。为什么叫153分钟呢?因为最初作者写了153个问题,阅读一个问题花费1分钟时间,全局下来也就是153分钟了

2.高级入门

读了上述书籍之后,你就可以去高级入门阶段了。这时候要读的书有两本很经典的。《Statistics with R》和《The R book》。之所以说这两本书高级,是因为这两本书已经不再限于R基础了,而是结合了数据分析的各种常见方法来写就的,比较系统的介绍了R在线性回归、方差分析、多元统计、R绘图、时间序列分析、数据挖掘等各方面的内容,看完之后你会发现,哇,原来R能做的事情这么多,而且做起来是那么简洁。读到这里已经差不多了,剩下的估计就是你要专门攻读的某个方面内容了。下面大致说一说。

3.绘图与可视化

亚里斯多德说,“较其他感觉而言,人类更喜欢观看”。因此,绘图和可视化得到很多人的关注和重视。那么,如何学习R画图和数据可视化呢?再简单些,如何画直方图?如何往直方图上添加密度曲线呢?我想读完下面这几本书你就大致会明白了。

首先,画图入门可以读《R Graphics》,个人认为这本是比较经典的,全面介绍了R中绘图系统。该书对应的有一个网站,google之就可以了。更深入的可以读《Lattice:Multivariate Data Visualization with R》。上面这些都是比较普通的。当然,有比较文艺和优雅的——ggplot2系统,看《ggplot2:Elegant Graphics for Data Analysis》。还有数据挖掘方面的书:《Data Mining with Rattle and R》,主要是用Rattle软件,个人比较喜欢Rattle!当然,Rattle不是最好的,Rweka也很棒!再有就是交互图形的书了,著名的交互系统是ggobi,这个我已经喜欢两年多了,关于ggobi的书有《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》,不过,也只是适宜入门,更多更全面的还是去ggobi的主页吧,上面有各种资料以及包的更新信息!

4.计量经济学

关于计量经济学,首先推荐一本很薄的小册子:《Econometrics In R》,做入门用。然后,是《Applied Econometrics with R》,该书对应的R包是AER,可以安装之后配合使用,效果甚佳。计量经济学中很大一部分是关于时间序列分析的,这一块内容在下面的地方说。

5.时间序列分析

时间序列书籍的书籍分两类,一种是比较普适的书籍,典型的代表是:《Time Series Analysis and Its Applications :with R examples》。该书介绍了各种时间序列分析的经典方法及实现各种经典方法的R代码,该书有中文版。如果不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。时间序列分析中有一大块儿是关于金融时间序列分析的。这方面比较流行的书有两本《Analysis of financial time series》,这本书的最初是用的S-plus代码,不过新版已经以R代码为主了。这本书适合有时间序列分析基础和金融基础的人来看,因为书中关于时间序列分析的理论以及各种金融知识讲解的不是特别清楚,将极值理论计算VaR的部分就比较难看懂。另外一个比较有意思的是Rmetrics推出的《TimeSeriesFAQ》,这本书是金融时间序列入门的东西,讲的很基础,但是很难懂。对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。经济领域的时间序列有一种特殊的情况叫协整,很多人很关注这方面的理论,关心这个的可以看《Analysis of Integrated and Cointegrated Time Series with R》。最后,比较高级的一本书是关于小波分析的,看《Wavelet Methods in Statistics with R》。附加一点,关于时间序列聚类的书籍目前比较少见,是一个处女地,有志之士可以开垦之!

6.金融

金融的领域很广泛,如果是大金融的话,保险也要被纳入此间。用R做金融更多地需要掌握的是金融知识,只会数据分析技术意义寥寥。我觉得这些书对于懂金融、不同数据分析技术的人比较有用,只懂数据分析技术而不动金融知识的人看起来肯定如雾里看花,甚至有人会觉得金融分析比较低级。这方面比较经典的书籍有:《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》。金融产品定价之类的常常要用到随机微分方程,有一本叫《Simulation Inference Stochastic Differential Equations:with R examples》的书是关于这方面的内容的,有实例,内容还算详实!此外,是风险度量与管理类。比较经典的有《Simulation Techniques in Financial Risk Management》、《Modern Actuarial Risk Theory Using R》和《Quantitative Risk Management:Concepts, Techniques and Tools》。投资组合分析类和期权定价类可以分别看《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》。
 

阅读全文

写给风控新人大数据挖掘基础知识介绍

对企业来,堆积如山的数据无异于一个巨大的宝库。但是如何利用新一代的计算技术和工具来开采数据库中蕴藏的宝藏呢?

在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术的概念和技术就应运而生了。         

 

阅读全文

如何通过自学,成为数据挖掘“高手”?

基础篇:

1. 读书《Introduction to Data Mining》,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人。另外可以用这本书做参考《Data Mining : Concepts and Techniques》。第二本比较厚,也多了一些数据仓库方面的知识。如果对算法比较喜欢,可以再阅读《Introduction to Machine Learning》。

2. 实现经典算法。有几个部分:

a. 关联规则挖掘 (Apriori, FPTree, etc.)

阅读全文

数据挖掘与预测分析术语总结

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。

分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。参见>>>

大数据(Big Data): 大数据既是一个被滥用的流行语,也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据,这些数据每天都在被捕获、处理、汇集、储存、分析。维基百科是这样描述“大数据”的:“数据集的总和如此庞大复杂,以至于现有的数据库管理工具难以处理(…)”。

商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

阅读全文

数据挖掘算法与现实生活中的应用案例

数据挖掘

相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。

最近两件事挺有感觉的。

看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是内敛和克制的…。希望设计成为一种,可以被忽略的存在感”。

阅读全文

物联网在“最后一公里”投递中的应用

当今,置身于物联网环绕的世界中,可以明确的一点是:物流业无疑是可以从物联网革命中获益的重要一员。在物流中,物联网可以连接供应链中不同的资产,并通过在连接中获得的数据分析来实现新的发现。因此,物联网使得物流提供商开启更高水平的运营效率,为客户创造定制的、动态的自动化服务。

由于“最后一公里”服务对人力高度依赖、消费者需求不断呈现复杂化以及投递点的逐步增多,物流提供商面临着新的挑战。他们需要在“最后一公里”服务中寻找创新的解决方案,为末端客户提供更高价值,为物流提供商提高经营效率。令人欣喜的是,物联网在“最后一公里”连接了物流提供商与末端接受者,带动了动态新型的业务模式。

物联网在“最后一公里”的使用案例实现了邮箱的优化投递。如Postybell产品配置了近距离传感器和GSM(全球移动通信技术)模块,通过近距离传感器可以探测到放入私人邮箱的邮件,并且能够监控邮箱内部的湿度。GSM模块可呼叫特定的电话号码,收件人得到提醒后即可查看邮箱,即使在度假也可以跟踪邮件信息。同样的原理也应用于DHL的包裹箱,该项目已在德国启用。由于信函量下降、包裹量上升,可以想象到未来温控智能包裹箱将最终替代传统信箱,并保证包裹、食品以及其他对环境敏感的物品及时投递。

邮箱连接仅仅是刚开始起步的“智能家居”产品总趋势的一部分。在消费者的世界中,物联网应用的一个常用案例是物联网冰箱。这一产品能够跟踪所储存物品的失效期,当探测到供应迟缓时会自动在线订购。这样的自动供给与预期发货方案对物流提供商产生了影响。例如,当传感器探测到零售商库存不足时,会自动在最近的分销中心下订单,缩短了订货的前置时间并避免了因库存不足而导致的延迟购买。亚马逊甚至取得了一项算法专利,能够预测消费者在确认前的购买,并进行预期发货,因而使预期产品的购买更接近消费者的常规配送地址,节省了投递的前置时间。通过将传感器数据与消费者数据的结合,物流提供商在未来可以为家庭用户以及本土企业提供更广范围的特别服务和预期投递服务。

阅读全文

数据挖掘中易犯的11大错误

按照Elder博士的总结,这10大易犯错误包括:

0. 缺乏数据(Lack Data)

1. 太关注训练(Focus on Training)

2. 只依赖一项技术(Rely on One Technique)

阅读全文

数据挖掘之七种常用的方法

   ① 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。

3

它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

 ② 回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

阅读全文

新人必学:数据挖掘基础知识

一、数据挖掘技术的基本概念

随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。另一方面,近十余年来,计算机和信息技术也有了长足的进展,产生了许多新概念和新技术,如更高性能的计算机和操作系统、因特网(intemet)、数据仓库(datawarehouse)、神经网络等等。在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术或称KDD(KnowledgeDiscovery in Databases;数据库知识发现)的概念和技术就应运而生了。

数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。

二 、数据挖掘的基本任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

阅读全文

相关推荐

组成数据分析师完整知识结构
大数据时代,数据分析对于企业决策和发展起到越来越重要的作用。作为一个较…
2016年大数据到底还算不算个
在喜新厌旧的技术初创企业界,已有 3年 历史 “大数据” 听起来似乎已经过…
提升R代码运算效率的11个实
R 是一款优秀的开源统计应用语言,它直观、易用、低成本,而且还有庞大的社…
随机世界与大数法则中渗透出
在最终的分析中,所有知识皆为历史;在抽象的意义下,所有科学皆为数学;在…
Hadoop/Spark生态圈里的新气
Hadoop绝对没有消亡,不过我确信,知名研究机构Gartner的下一篇文章会这么…
Java程序员使用的20几个大数
今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,…
果断收藏!六大主流大数据采
大数据采集的挑战越来越突出。本文中我们将讨论几种流行的数据收集平台,它…
处理不确定数据的方法研究
不确定性是客观存在的大量现象和事物的特征,其表现形式也具有多样性,如…
大数据时代留给数据分析师的
在大数据时代,数据分析师所扮演的角色不可能是一成不变的。随着大数据分析…
聊天机器人的“高情商”炼成
近年来,聊天机器人受到了学术界和工业界的广泛关注,基于聊天机器人系统的…
2016年大数据发展现状及发展
针对大数据来说,2016年将是令人振奋的一年。智能算法将接替现在由人类来完…
如何从零构建实时的个性化推
现在网上到处都有推荐。亚马逊等主流电子商务网站根据它们的页面属性以各种…
热点推荐:你确定你真的懂用
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来…
怎样才能持续招到最牛的数据
这是一篇来自国外的文章,原文叫How to Consistently Hire Remarkable Data…
挖掘更多数据 人工智能反恐
作为士兵和计算机科学家,保罗·沙克瑞恩跟恐怖主义打了14年仗。不久前,巴…
大数据应用于人力 预测性劳
最近,人力资源专家、人力资源技术会议之父—Bill Kutik写了一篇文章《预测…
数据可视化,我应从何开启?
如果您最近和我参加聚会,我在您耳边说的都是有关数据可视化工具或者最近使…

精典原创

十年,我终于离开了360
假如有一天我们湮没在人潮中,庸碌一生,那是因为我们没有努力活得丰盛。…
程序猿到美猴王的进化史
“苦练七十二变,才能笑对八十一难”。等到五指山也压了,炼丹炉也进了,九…
普通人应该了解云计算吗?
云计算大多数都是给技术人员讲的,而最近一年,在政府的倡导下,各大企业都…
Linux底层函数库“glibc”再
近日,Google 的安全研究团队披露了glibc getaddrinfo溢出漏洞。经研究发现…
你知道哪些应用未来可能转化
在资本涌入和市场觉醒的双重支持下, 2016年的SaaS市场热度是不可预估的。…
又说苹果业务下滑?实际可能
很多智能手机用户觉得当前手机已经足够满足使用了,而不去购买最新的旗舰手…
春节期间走亲访友的你蹭网了
猴年春节长假后,人们陆陆续续都回到了自己的工作岗位。不知大家春节过得咋…
SPDK,软件定义存储的催化剂
固态硬盘正在迅速扩展它在数据中心中的份额,相较于传统存储介质,新的闪存…
移动游戏技术优化的解决方案
移动游戏经过多年来的高速发展,仅凭一个好的创意就能大获成功的产品已经越…
基于HTML5/WebGL技术的BIM模
根据运维系统的特点,运维人员可能并不熟悉建筑建模软件的使用,同时让运维…
如何掌握好应用程序的数据和
如何优化应用程序的用户体验以便增加用户数量并获取市场份额是个难题。本系…
我们为什么需要微服务架构
随着云计算技术的进步和服务的增长,微服务架构越来越多的受到了人们的关注…
在这一切皆消息的时代,IM上
几天前,扎克伯格把他疯狂的想法告诉全世界:“2016是扼杀掉手机号码的一年…
创业型小公司如何做好日常的
从大公司投身到创业型的小公司,我最深的感受就是“由奢入俭难”这五个字。…
“翻墙”行为遭遇整改 墙外
对于很多网友来说,在网上或电视上经常看到脸谱(Facebook)、YouTube、推特(…
云计算技术加速移动视频领域
随着用户接入带宽能力的提升和移动4G卡成本的下降,我们正处于由泛娱乐逐渐…
水土不服 什么Docker 、Meso
把在技术人眼中炫酷、客户眼中冰冷的代码变成好的产品,并不那么容易。如何…
拖垮技术人创业的四大先天病
在投资人眼中,技术创业者有着自己的先天短板和弊病。在当下众多创业者眼中…
技术人创业:活下去才能改变
记不清多久以前,老秦心中创业的火苗就不曾熄灭,他一直坚信自己创业的天分…
GrowingIO张溪梦:数据化运
WOT2015"互联网+"时代大数据技术峰会于今日在深圳前海华侨城GW万豪酒店盛…
WOT讲师李学庆:大数据风控
互联网金融的发展带火了P2P市场,也折射出风控体系建设的缺失。关于这个问…
WOT2015章天锋:用大数据把
很多消费者只有在收获环节才会与物流人员产生直接接触。据报道,在菜鸟网络…
WOT2015何岳娟:数据分析助
大数据技术的发展引发众多电商架构师思考,在面对用户蜂拥而至这件好事,如…

每日外电

助你玩转机器学习技术的十三
在今天的文章中,我们将共同了解十三款机器学习框架,这些框架中最值得关注…
这些大酒店用大数据和分析技
酒店和酒店服务业也许刚开始使用大数据,但是它有令人羡慕的数据数量和种类…
Gartner预警:千万别把数据
数据湖常常被厂商说成是应对大数据挑战的一种手段,它其实有助于你搞清楚针…
针对2016年大数据发展形势的
大数据是人人都关注的话题,人人都是大数据的产生者。你想知道在2016年里大…
15种最佳方式帮你顺利掌握Ha
在探讨今天的主题——如何利用各类资源学习Hadoop知识——之前,让我们首先…
超级计算机,解锁大数据能量
在今天的文章中,我们将从六个角度来探讨为什么企业、甚至是初创企业正着手…
如何才能将蕴藏于大数据内的
如果没有适当的信息治理机制作为支撑,企业很可能与有价值分析结论失之交臂…
八款卓越开源工具帮你搞定数
数据可视化是指将表格或者空间数据转化为人类友好且直观可视形式的处理机制…
拨开迷雾:大数据所带来的变
根据最新调查结果显示,尽管现代数据技术仍然保持着快速发展势头,但目前75…
大数据分析工具面临的四大最
无论从实际数据量方面来看,还是从业务重要性方面来看,大数据都很大。尽管…
大数据已死——但大数据亦将
在不久的将来,我们将迎来大量集合了分布式处理、机器学习以及分析等当下各…
对大数据而言,眼下既是最好
你想知道你的公司到底应不应该斥资购买大数据分析工具吗?你也许是CIO,也许…
不只是Hadoop:大数据技术的
以Spark为代表的大数据技术当下可谓风靡一时,但其未来又将走向何方?这个…
Spark成为大数据分析领域新
为了更为顺畅地实现Hadoop基础之上的高级与实时分析目标,Apache Spark凭借…
Storm与Spark:谁才是我们的
实时商务智能目前已经逐步迈入主流,而Storm与Spark开源项目的支持无疑在其…
内存内计算技术帮助运营系统
内存内数据网格能够为金融交易、购物车内容、监控信息流以及其它运营数据带…
深层数据:推动大数据成功的
所谓的‘深层数据’其实是相关领域多种专业性知识储备的综合体——对于我们…
将彻底改变我们生活的十大现
关于大数据话题的炒作与争论似乎永无停歇,但全球数据量迅猛增长、每十八个…

投    票

专题推荐

想要理解大数据,使之更贴近大多数人,最重要的手段的之一就是数据可视化。数据可视化标识导向系统,包括文
可视化技术 展现大数据之美
想要理解大数据,使之更贴近大多数人,最重要的手段的之一就是数据可视化。数据...
针对大数据来说,2016年将是令人振奋的一年。智能算法将接替现在由人类来完成的许多业务。我们将看到数据湖
2016年大数据发展现状及发展
针对大数据来说,2016年将是令人振奋的一年。智能算法将接替现在由人类来完成的...
51CTO原创精选,有内容 有态度 有技术……
51CTO原创精选
51CTO原创精选,有内容 有态度 有技术……...
前几天和长辈闲聊之下,“大数据”,竟然也从老人家嘴里蹦出来。真是 duang的一声,把我吓了一跳。大数据,
毕业季特刊:剥开大数据的层
前几天和长辈闲聊之下,“大数据”,竟然也从老人家嘴里蹦出来。真是 duang的一...

一周排行

留言评论