大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不再是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Storm由java和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。
spark弥补了hadoop的不足,使之各有各的优势和用处。三者的适用范围如下:Hadoop常用于离线的复杂的大数据处理;Spark常用于离线的快速的大数据处理;Storm常用于在线的实时的大数据处理。
那么,大数据的核心是什么?依笔者愚见,有三个方面:一是数据,没有数据扯啥都是白搭;二是技术,没有大数据的处理技术,那么数据也就只是一些磁盘;三是思想,有了数据和处理技术,还要有idea,也就是怎么让数据产生更大的价值。
大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。
另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。
Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?其实这些只是表面不同的工具而已,本质上的思想是一致,相信未来还会有更多的工具涌现出来,但思想确很难有所变化,比如,你要想快,那么从计算机的体系结构来看,就得多内存,而少硬盘,因为硬盘太慢了。
另外,从处理问题的角度也是一样的,通过采用更多的资源,以分布式的方式,来同时处理那么的数据,速度也肯定会快,当然前提是,不同机器之间交互通信的成本,低于由此带来的益处。
storm是实时处理,spark和hadoop是批处理,两者是互补。而spark和hadoop比较的话,spark主要是充分利用内存计算并且支持更多的操作而不仅是map/reduce,这样有些迭代密集的算法执行效率会更高,而hadoop可能需要多个mr任务来完成。在2.0之后,hadoop使用了新的yarn框架,map/reduce只是其中一种默许了,spark也可以在hadoop的yarn框架下运行的,所以2者还会是融合的。
今后大数据的发展趋势,套用一条耳熟能详的口号就是,更快、更高、更强。不过也需要更加规范,这些个东西,A工具、B工具、C工具,感觉有点像一个个玩具,还不是一个成熟的产品,所以,以后可能会有专门的公司来做商业化的软件,更加成熟的软件。经过几年的酝酿应该会有更多的应用出现,除了互联网,在某些行业用户中也会有落地的成果。
分享到:
相关推荐
提取三维体积属性的技术已应用于北海荷兰地区F3区块的3D地震数据体积。 使用这些体积属性的目的是从烃类岩相中提取信号特征。 结果为油藏位置,油气探测和油藏岩性预测中的瞬时地震属性提供了显着贡献。 瞬时振幅,...
荷兰耕地语义分割遥感影像数据集,已经标注完成
荷兰留学资料荷兰留学资料荷兰留学资料荷兰留学资料 荷兰留学资料
荷兰的糖尿病视网膜病变筛数据集。 一共199张糖尿病视网膜病变照片,人群是荷兰人,可以用来作为糖尿病检查图像模型的训练和验证。
荷兰以数据中心为核心打造云计算产业.pdf
荷兰国家旅游景点介绍,荷兰风土人情文化介绍,荷兰旅游文化介绍ppt模板。
大国崛起荷兰PPT教案.pptx
设有一个仅由红、白、蓝三种颜色的条块组成的序列。试设计一个时间复杂度为O(n)的算法,使得这些条块按红、白、蓝的顺序排好,即排成荷兰国旗图案。
荷兰皇家图书馆致力于保存国家的文化遗产,通过使用 CD-ROMs、磁盘和磁性光存储磁盘,保存了大量电子化的资料。由于预计该馆的数字内容将达到几百TB,因此该馆认为此时他们需要一种可扩展、可靠的数字媒体管理解决...
荷兰国旗问题 数据结构学习 算法设计与分析学习
学生作业:C语言解决荷兰国旗问题。小程序。
荷兰的法律制度.doc
HABITAT模型由荷兰代尔夫特水利学研究所开发,以生态水力学为核心,利用生物栖息地适宜性指数与生物栖息地地貌,模拟不同环境下的生态栖息地变化情况,相对于上述两种模型,可以模拟环境因子与物种栖息地之间的关系...
2013年至2017年期间收集的97个荷兰中小型企业的数据显示,中小型企业侧重于风险流程,而不是建立组织结构来嵌入流程。 但是,企业对流程的关注与组织结构成正相关。 在风险管理过程中,中小型企业似乎在风险识别,...
解码荷兰农业的发达秘诀.pdf
基于stadict字典平台。荷兰语词典,非常好用,值得下载!
荷兰阿姆斯特丹大学UvA Trillearn源代码。这是2003年的代码,现在大部分球队都是在此基础上修改出来的,希望大家有什么好的建议来这里交流交流!
荷兰乳牛广告模板下载
卫星影像