大数据能为企业带来什么?更多的订单,更低的成本,更快捷的管理,更新的业务模式。巧妙善用互联网上的大数据, 小型创业团队就可以为自己快速积攒早期创业所需的资源,从而降低创业成本,提高收益率。然而我们却看到,在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下,我们不禁又要问小团队,你的大数据在哪里?

头条推荐

WOT2016卢学裕:小团队如何玩转大数据

大数据之所以能称得上一个时代,来自于整个社会的集体狂欢。数据源于各行各业,这场变革带来的机遇自然蕴藏于各行各业之中。紧盯这个市场等待机遇的,无所谓IT巨头或是初创企业,无所谓团队规模是大是小。……>>详细

大数据创业,在多维数据分析模型的路上越

前几天翻出了2012年2月在微博上发出的一条信息(图1),当时我为什么会那么兴奋,还得从更早的时候说起。



(图1 2012年的一条微博) 

初次失败

2010年初,有个地图团队的PM找到我,演示了一份PPT,那是某个公司的统计分析系统的对外交流材料。据说这份材料先是被厂长看到,觉得做的挺好,就安排下面的人看是否也能做一套。我看了之后,发现就是针对某个互联网产品的流量、用户量的几个页面展示,针对地域、渠道等几个维度可以展开分析。心想这种系统在我们的Log统计平台上很容易用几个任务实现出来。但Log统计平台是以统计任务来管理的,虽然功能强大,但是不利于展示上的组织。对于一个业务线来说,就是一组报表,并没有层级管理。相比之下,PPT中演示的系统在界面组织上,就会好很多。我就给这位PM说,这套系统太简单了,既然我们要做,就要比他们做的牛逼。我先考虑一下,然后给出一套方案。

就这样,我和团队的三四个兄弟开始考虑如何做一套牛逼的方案,调研来调研去,发现还是数据仓库教材里介绍的数据立方体的模型,适合做这件事。于是拿着这套方案和PM沟通,PM听了介绍之后,说要是真的可以实现,我们的系统就太强大了。就这么敲定了。那时的我一是会希望自己做的事情非常独特,超越之前的任何方案,二是根本不会考虑人力是否能支持,最后真正能投入到本项目的也就只有一个正式员工外加一个实习生。产品方案定了,接下来就是技术选型。

阅读全文

如果使用得当,MySQL也可以化身NoSQL

随着互联网和移动互联网的发展,各个机构都需要支撑远超过以往的数据。而在这个需求的刺激下,IT领域出现了大量数据处理技术,其中之一就是NoSQL。灵活的数据类型,高效的处理能力,让NoSQL已占据数据管理系统的一席之地,比如人气NoSQL数据库MongoDB。然而在Wix工程实践中,他们发现,大量场景中其实并不需要NoSQL,反而成熟的RDBMS更具效益,比如MySQL。下面一起看Wix工程主管 Aviran Mordo的分享,由OneAPM工程师翻译。
 

开发人员选择NoSQL数据库一般都是根据主观臆断,或者“关系型数据库性能不如NoSQL数据库”这个错误的理念。此外,在做数据库选型时,开发人员往往还忽视了运维上的开销。实际上根据Wix的实践发现,大部分情况下都不必去选择NoSQL数据库,而且如果使用得当的话,MySQL也可以是一个优秀的NoSQL数据库。

在可扩展系统构建时,一个很重要的考量是使用的技术是否成熟,选择成熟的技术意味着出错时能够迅速恢复。当然,开发者也可以在项目中使用最新最牛的NoSQL数据库,而这个数据库在理论上也可以良好地运行,然而在生产环境中出现了问题恢复需要多久?技术上已有的知识和经验积累对于问题缓解至关重要,当然这个积累也包括了Google可以搜索到的内容。相比之下,关系型数据库已经存在了超过四十年,业界对于关系型数据库的维护也积累了大量的经验。基于这些考虑,在新项目做技术选型时通常会选择MySQL,而不是NoSQL数据库,除非NoSQL真的有非常非常明显的优势,比如数据量太大就不适合使用MySQL。

阅读全文

指点迷津的现代数据架构之道

【51CTO.com快译】本文评析了现代数据架构所需要的几个部分。

为了让大数据在大范围内实际可用,许多企业组织正竭力采用易于使用的数据分析技术。也许他们应考虑将部分功能外包到云端。如果选择一种大数据即服务解决方案,可以处理像Hadoop、Spark和Hive等这些大数据技术很耗费资源、很耗费时间的操作方面,企业就能专注于大数据的好处,少关注枯燥乏味的工作。

大数据的出现带来了以下几方面的基本问题:

阅读全文

整天看用户埋点数据,知道数据是咋来的吗

我们平时看到的报表复杂而多样,能够通过多种纬度的数据评估用户的使用习惯和对应功能的价值。然而这些报表是如何产生的呢?今天咱们就看看上报数据一步一步变成报表的大致流程。

所有上报的数据都是为了记录一次事件的发生或者描述一个状态,具体的上报数据可以设计为KEY-VALUE的形式或者数据组合的形式。KEY- VALUE的形式主要用来统计简单的计数类上报,如按钮点击的次数,某个选项的值等,KEY用来区分不同的事件,VALUE代表事件发生的次数、状态值等;数据组合的主要用来描述一个事件或者状态需要多种属性描述的场景,比如下载成功事件,描述这个事件的数据组合可能包括对应的下载地址、下载渠道来源、下载耗时等信息。

当上报数据设计好后,后续的工作才能正常开展。下面一步一步说。

1、埋点

阅读全文

怎样才能持续招到最牛的数据人才?

怎样才能持续招到最牛的数据人才?

数据人才们可以处理不确定性。不管我们打交道的数据有多“大”,它含有有限个有偏的潜在样本。我们的模型在太简单以至于无实际意义和太复杂以至于无法置信这两种极端情况间平衡选择。为了能找到控制数据噪声的方法,我们不断尝试模拟、测试验证。一个杰出的数据人才能够对他的数据、方法以及结论保持适度的怀疑态度。

 

那么当有一天数据科学家面对出现的全新挑战:评估将成为他们团队中一员的面试者。这个样本空间下降的很快,实验方法看起来不会那么实用,面试中的偏差比我们实际工作中精心控制的数据偏差更呈现数量级的显著倍增。

阅读全文

用于实时大数据处理的Lambda架构

1.Lambda架构背景介绍

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。

Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。

2.大数据系统的关键特性

Marz认为大数据系统应具有以下的关键特性:

  • Robust and fault-tolerant(容错性和鲁棒性):对大规模分布式系统来说,机器是不可靠的,可能会当机,但是系统需要是健壮、行为正确的,即使是遇到机器错误。除了机器错误,人更可能会犯错误。在软件开发中难免会有一些Bug,系统必须对有Bug的程序写入的错误数据有足够的适应能力,所以比机器容错性更加重要的容错性是人为操作容错性。对于大规模的分布式系统来说,人和机器的错误每天都可能会发生,如何应对人和机器的错误,让系统能够从错误中快速恢复尤其重要。
  • Low latency reads and updates(低延时):很多应用对于读和写操作的延时要求非常高,要求对更新和查询的响应是低延时的。
  • Scalable(横向扩容):当数据量/负载增大时,可扩展性的系统通过增加更多的机器资源来维持性能。也就是常说的系统需要线性可扩展,通常采用scale out(通过增加机器的个数)而不是scale up(通过增强机器的性能)。
  • General(通用性):系统需要能够适应广泛的应用,包括金融领域、社交网络、电子商务数据分析等。
  • Extensible(可扩展):需要增加新功能、新特性时,可扩展的系统能以最小的开发代价来增加新功能。
  • Allows ad hoc queries(方便查询):数据中蕴含有价值,需要能够方便、快速的查询出所需要的数据。
  • Minimal maintenance(易于维护):系统要想做到易于维护,其关键是控制其复杂性,越是复杂的系统越容易出错、越难维护。
  • Debuggable(易调试):当出问题时,系统需要有足够的信息来调试错误,找到问题的根源。其关键是能够追根溯源到每个数据生成点。

3.数据系统的本质

为了设计出能满足前述的大数据关键特性的系统,我们需要对数据系统有本质性的理解。我们可将数据系统简化为:

阅读全文

如何驾驭大数据?

大数据

到2018年全球大数据方面的开支将达1140亿美元,是5年前的3倍;到2020年全球大数据规模将达44ZB(泽字节),是2013年的10倍。下一波大数据浪潮即将来袭,但是并没有多少组织为此做好准备。如果应对措施不当,你可能就不是弄潮的那个,而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢?请看Crewspark CEO Cameron Sim的文章。

1140亿美元。这是2018年全球组织在大数据方面的开销,仅仅5年的时间就增长了300%以上。但是这些投入有多少是值得的呢?

过去10年,我们目睹了大数据管理新方法的广泛应用,如MapReduce、供大规模存储使用的非模式化数据库,以及用于存储和处理的Hadoop、Storm和Spark等。但是大数据的使用不仅仅是特定平台或范例的部署而已:理想情况下这意味着公司对数据的建构和组织要如何进行彻底的重新设计。

阅读全文

三个真实案例告诉你大数据如何触发精准营

每次我跟很多企业家在沟通的时候,总会说到一个问题,就是现在生意难做,为什么生意难做?我们看到几点: 第一,我们整个中国是制造业大国,但是我们产能高度过剩; 第二,我们的产成品库存积压周转也不够灵活,在交易过程中,不能将经济效益更大化地提高?

每次我跟很多企业家在沟通的时候,总会说到一个问题,就是现在生意难做,为什么生意难做?我们看到几点:

第一,我们整个中国是制造业大国,但是我们产能高度过剩;

阅读全文

你不得不知道的6个用好大数据的秘诀

大数据

秘诀一:目标要明确

就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正成功。在公司在发展过程中往往也会面临诸多选择,也只有目标设定明确了,才能够缩小选择范围聚焦精力去发展。企业应时刻保持头脑清醒,朝着自己定好的目标前进,才有助于公司进行持续长久的良好运作。

不过,Luzzi也表示,有时候,利用太复杂先进的数据分析工具往往也会带来很多问题,不过如果我们能够通过分析大量的数据来得到最终的结果,那就不用怀疑了,你就干吧,至少方向肯定是对的。

秘诀二:要区分清楚“森林”和“树”

现在,企业可以做到一些他们以往没有能力做到的事。对于很多公司来说,可供分析的数据更多,可以用来分析数据的工具和方法也比以前更先进方便。公司已经完全有能力去分析和处理他们收集到的大量数据,这对于企业来说或许是件好事,然而,有时候这些数据也会过于分散。

阅读全文

精典原创

大数据应该成为一种基本的使
“大数据”之“大”,不仅仅源于其体量的庞大,更表现在它的无处不在。数据…
如何快速使用大规模机器学习
面向机器学习的可用框架迎来爆发式增长。巨头们纷纷将最为复杂的技术从机器…
他说数据科学家就是做算术的
如果对当上数据科学家不敢奢望,如果我告诉你,有一些看上去站着说话不腰疼…
腾讯刘黎春:社交数据在征信
由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自腾讯数据挖掘高级…
新浪微博王传鹏:认识每一个
由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自新浪微博推荐及广…
游族MOb兰旭:大数据背景下
由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自游族Mob的联合创…
没有数据分析大数据什么也不
商业人士想要通过大数据来了解客户的需求,但他们必须意识到没有数据分析“…
外行人的大数据五问
信息化时代,社会日新月异地发展,新的技术革新也不断地改变造福于人类的生…
优秀数据分析师应该具备的5
多数时候非专业人士无法有效处理收集到的数据,这正是数据科学家供不应求的…
数据科学家的用武之地
大数据时代已经到来,大数据在疾病检测、股票买卖、预防犯罪和选举预测等方…
统一监控报警平台的架构设计
本文以全局视角,从一个监控系统的设计开始,为我们展示了一个高性能的监控…
Docker使用过程中可能遇到的
自2013年3月开源到现在docker已经经历了3年的发展,在这期间Docker无疑是云…

独家译文

共筑Spark大数据引擎的七大
Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能…
如何使用队列数据分析来留住
在种种数据分析工具中,有一种工具经常不被人使用,那就是队列分析。虽然队…
Hadoop生态系统在壮大:十大
管理和分析大数据已经变成了重大挑战,为了应对这项任务,开发人员已开发了…
职业生涯提升计划:迈入数据
数据科学已经成为专业人士不容忽视的一大全新发展机遇,并能够为其带来相当…
吃惊吗?原来这才是大数据的
据Dresner咨询服务公司的一项新调查显示,几乎没人能说清大数据到底是什么…
顽疾反复发作:大数据技术领
尽管在Hadoop与NoSQL部署方面做足了准备,同样的问题仍然一次又一次反复出…
八款卓越开源工具帮你搞定数
数据可视化是指将表格或者空间数据转化为人类友好且直观可视形式的处理机制…
拨开迷雾:大数据所带来的变
根据最新调查结果显示,尽管现代数据技术仍然保持着快速发展势头,但目前75…
大数据分析工具面临的四大最
无论从实际数据量方面来看,还是从业务重要性方面来看,大数据都很大。尽管…
破解迷雾:关于大数据与Hado
这些毫无根据的印象涉及所需技能储备、技术方案类型以及技术匹配方式等多个…
大数据已死——但大数据亦将
在不久的将来,我们将迎来大量集合了分布式处理、机器学习以及分析等当下各…
不只是Hadoop:大数据技术的
以Spark为代表的大数据技术当下可谓风靡一时,但其未来又将走向何方?这个…
Spark成为大数据分析领域新
为了更为顺畅地实现Hadoop基础之上的高级与实时分析目标,Apache Spark凭借…
大数据分析专题:利用向外扩
大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直…
超越批量处理与MapReduce:
数据可以说是现代世界当中的新型货币资源。能够充分发掘数据价值的企业将制…

相关推荐

7种最常见的Hadoop和Spark项
Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相…
Spark 1.6.0 新手快速入门
随着越来越多的代码贡献者和使用经验,Spark的性能和稳定性在不断提升。本…
R语言和 Python —— 一个错
任何有趣的数据集至少有以下一些特性:缺失值,异常值和噪声。对于处理这类…
别再比较Hadoop和Spark了,
直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些…
还不懂HDFS的工作原理?快来
分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理来自网络…
自动洞察:大数据的下一个重
我坚持认为具有洞察力的应用是帮助企业高效探究大数据的关键,可以提高决策…
MapReduce朝不保夕的江湖地
MapReduce已经不再像以往那么重要,就像一个古老的蒸汽引擎被迫让位于更时…
50PB海量数据排序,谷歌是这
为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验…
Apache Spark 2.0 最快4月亮
大数据技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计…
数据科学家和大数据技术人员
数据科学家和大数据技术人员的工具包:A.大数据技术平台相关2015最佳工具,…
是什么让深度学习再次崛起并
深度学习这套方法并不是近几年提出的,是什么让深度学习再次崛起并超越人类…
借助 Redis ,让 Spark 提速
提速幅度有多大?如果Redis和Spark结合使用,结果证明,处理数据(以便分析下…
20个问题揭穿冒牌数据科学家
冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正…
拿到用户数据之后,LinkedIn
LinkedIn有很多数据。他们是如何用数据给各个部门提供数据服务,帮助他们赚…
Spark Streaming 妙用之实现
开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Stre…
如何基于Spark进行用户画像
如果你面对5万个匿名驾驶员线路的数据集,你知道如何根据路线研发出一个驾…
数据分析工作常见的七种错误
福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦…
做好数据挖掘模型的9条经验
也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20…

全站热点

可是姑娘,你为什么要编程呢
突然有一天,你开始发现代码这个东西的魔力:在安安静静码代码,认认真真调…
十年,我终于离开了360
假如有一天我们湮没在人潮中,庸碌一生,那是因为我们没有努力活得丰盛。…
为什么用 Java:一个 Python
这篇文章专门给程序员写的,普通读者慎入。原作者:Kevin Sookocheff 译者…
物联网黑科技:不耗电的新wi
目前,国外媒体报道,美国华盛顿大学电子工程学院的学生们日前研发出了一种…
Linux专家心目中的最佳Linu
Linux发行版还是我青睐的。它们未必是最流行的,但它们是颇有影响力,或者…
你在编程的时候浪费了多少时
它也会确切告诉你,你究竟浪费了多少时间在社交媒体、查看电子邮件和浏览网…
出色的学习能力,才是运维工
尝试新事物,并且不太擅长时,会有糟糕的想法,而这些状态占据了大量的学习…

投    票

专题推荐

过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理大数据。大数据技术中最热的非Hadoop及
非要一决高下?听说Hadoop和
过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理大数据。大...
数据科学已经成为专业人士不容忽视的一大全新发展机遇,并能够为其带来相当可观的薪酬水平。与其它早已成熟
如何成为人见人爱的数据科学
数据科学已经成为专业人士不容忽视的一大全新发展机遇,并能够为其带来相当可观...
随着互联网的发展,人们的行为方式被大幅改变,大数据时代已经来来临。近年来,数据挖掘引起了信息产业界的
数据挖掘新人的开荒宝典
随着互联网的发展,人们的行为方式被大幅改变,大数据时代已经来来临。近年来,...
想要理解大数据,使之更贴近大多数人,最重要的手段的之一就是数据可视化。数据可视化标识导向系统,包括文
可视化技术 展现大数据之美
想要理解大数据,使之更贴近大多数人,最重要的手段的之一就是数据可视化。数据...

一周排行

留言评论