数据挖掘
-
hadoop之 hadoop 机架感知
我们已经很熟悉这个5个进程,但是在使用的过程中,我们经常遇到问题,那么该如何入手解决这些问题。那么首先我们需了解的他们的原理...
2018-10-09 22:27:56 -
hadoop+Spark+hbase集群动态增加节点
如果一个集群资源不够用需要扩展的时候怎么办,那么是可以不关机动态扩展的,具体操作如下:...
2018-10-09 22:27:56 -
大数据-Hive学习从这里开始
Hive是基于Hadoop HDFS分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具,数据存储...
2018-10-09 22:27:56 -
大数据-Hadoop小文件问题解决方案
HDFS中小文件是指文件size小于HDFS上block(dfs block size)大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。...
2018-10-09 22:27:56 -
数据挖掘领域十大经典算法之—K-Means算法(超详
k-means算法比较简单。在k-means算法中,用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下:...
2018-10-09 22:27:56 -
数据挖掘领域十大经典算法之—C4.5算法(超详细
C4 5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。常见的决策树算法有ID3,C4 5,...
2018-10-09 22:27:56 -
Kafka 客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做...
2018-10-09 22:27:56 -
Apache HBase2.0已经正式发布
HBase2 0 啥时候发布?好奇宝宝也是期待了很久,曾几何时都把stack问“烦”了,就在2018年4月30日中午,期待已久的HBase 2 0发布啦!...
2018-10-09 22:27:56 -
如何在万亿级别规模的数据量上使用Spark
本文主要是通过作者在搭建使用计算平台的过程中,写出对于Spark的理解,并且介绍了Spark在当前的DataMagic是如何使用的,当前平台已经用于...
2018-10-09 22:27:56 -
Accordion :一种HBase内存压缩算法
现如今,人们对基于HBase的产品的读写速度要求越来越高。在理想情况下,人们希望HBase 可以在保证其可靠的持久存储的前提下能并拥有内存...
2018-10-09 22:27:56 -
Kafka的存储机制以及可靠性
kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存...
2018-10-09 22:27:56 -
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:...
2018-10-09 22:27:56 -
Hadoop 3.0版本测试,终将计算与存储解耦!
传统的Hadoop架构是建立在相信通过大规模分布式数据处理获得良好性能的唯一途径是将计算带入数据。在本世纪初,这确实是事实。当时,...
2018-10-09 22:27:56 -
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,...
2018-10-09 22:27:56 -
spark自己的分布式存储系统 - BlockManager
BlockManager 是 spark 中至关重要的一个组件, 在 spark的的运行过程中到处都有 BlockManager 的身影, 只有搞清楚 BlockManager 的原理和机制,你才能...
2018-10-09 22:27:56