你现在所在的位置: 首页 > 开发 > 大数据应用 >

互联网金融还是大数据金融

发布时间:2013-09-11 16:40:35等你来评论浏览数:5484

近来,颇有几个新名词在市面上流行,诸如“互联网金融”,“信息消费”之类。这些新名词并非产自概念日日翻新的互联网业,却来自传统金融业甚至政界,其气势之大,梦想之美,内涵之广,投入之多,逻辑之混乱,可行性[全文阅读]

Spark:一个高效的分布式计算系统

发布时间:2013-09-11 16:02:00等你来评论浏览数:144852

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内[全文阅读]

标签

Spark分布式计算系统

分享到:

教你怎样玩转千万级别的数据

发布时间:2013-09-10 10:20:12等你来评论浏览数:55113

大数据处理是一个头疼的问题,特别当达不到专业DBA的技术水准时,对一些数据库方面的问题感到无奈。所以还是有必要了解一些数据库方面的技巧,当然,每个人都有自己的数据库方面的技巧,只是八仙过海,所用的武功不[全文阅读]

标签

数据大数据大数据应用

分享到:

海量数据相似度计算之simhash和海明距离

发布时间:2013-08-29 14:28:58等你来评论浏览数:13683

过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长[全文阅读]

标签

海量数据simhash

分享到:

社会化海量数据采集爬虫框架搭建

发布时间:2013-08-27 13:44:493浏览数:41370

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采[全文阅读]

标签

爬虫框架数据采集

分享到:

大数据:从开源告诉你身边的IT故事

发布时间:2013-08-22 10:56:34等你来评论浏览数:12984

最近我们Team利用Dream分布式计算平台,做了这样一件事情,将Github的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁原味,无人工干[全文阅读]

标签

大数据

分享到:

初窥InnoDB的Memcached插件

发布时间:2013-08-21 15:47:05等你来评论浏览数:20187

前些年,HandlerSocket的横空出世让人们眼前一亮,当时我还写了一篇文章介 绍了其用法梗概,时至今日,由于种种原因,HandlerSocket并没有真正流行起来,不过庆幸的是MySQL官方受其启发,研发了基于InnoDB 的Memcach[全文阅读]

标签

InnoDBMemcachedMemcached插件

分享到:

一周热文

专题推荐

创业,你不知道的那些事
我们都知道在20世纪90年代是多元文化和多媒体时代,而

Java8 新特性探究
Java 8版本最大的改进就是Lambda表达式,其目的是使Ja

2014甲骨文总部之旅 51C...
美国旧金山时间3月31日,在红木城Oracle公司总部,Ora

这次终于不跳票 Java8正...
从2006年12月份Sun发布Java 6后,经过五年多的不懈努

图书推荐

Spark+GraphX大规模图计
通计近30个动手实践的案例,循序渐进的展示Spark GraphX柜架方方面面的功能和使用方法,同时伴随Spark GraphX恰到要害的源码解析,是...

热门标签

刀片服务器 | 云计算 | ARP攻防 | 思科培训 | 故障宝典 | HTML5 | 嵌入式开发 | Sniffer | LAMP精解 | 图书热读榜 | Scala | JAVA招聘

51CTO旗下网站

领先的IT技术网站 51CTO 领先的中文存储媒体 WatchStor 中国首个CIO网站 CIOage 中国首家数字医疗网站 HC3i 51CTO学院