数据挖掘
-
Hadoop3.0集群安装知识
本文档介绍如何安装和配置Hadoop集群,从少数节点到数千个节点的超大型集群。...
2018-10-09 22:38:17 -
数据挖掘:关联规则Apriori算法
总结了关联规则挖掘的经典算法Apriori算法,这个算法利用了一个定律:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集,自下...
2018-10-09 22:38:17 -
Spark:有向无环图(DAG)检测
Spark 是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,...
2018-10-09 22:38:17 -
Spark之性能优化(重点:并行流数据接收)
在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。...
2018-10-09 22:35:06 -
HBase最佳实践 – Scan用法
HBase从用法的角度来讲其实乏陈可善,所有更新插入删除基本一两个API就可以搞定,要说稍微有点复杂的话,Scan的用法可能会多一些说头。...
2018-10-09 22:35:06 -
搭建Hadoop大数据处理-环境
由于hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...
2018-10-09 22:35:06 -
零基础学习大数据,搭建Hadoop处理环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...
2018-10-09 22:35:06 -
Hadoop3.0: YARN Resource自定义资源配置说明
yarn支持可扩展资源类型 所有节点、应用程序、队列,默认情况下Yarn使用 CPU和内存。资源定义可以扩展为任意的“countable”资源。一个cou...
2018-10-09 22:35:06 -
如何在Python中用scikit-learn生成测试数据集
测试数据集是小型的专用数据集,它可以让你测试一个机器学习算法或测试工具。数据集中的数据有完整的定义(例如线性或非线性)使你可以...
2018-10-09 22:35:06 -
一个Spark缓存的使用示例
之前一直不是非常理解Spark的缓存应该如何使用 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果...
2018-10-09 22:35:06 -
如何使用 scikit-learn 为机器学习准备文本数据
文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为...
2018-10-09 22:35:06 -
HBase跨版本数据迁移总结
某客户大数据测试场景为:Solr类似画像的数据查出用户标签——通过这些标签在HBase查询详细信息。以上测试功能以及性能。...
2018-10-09 22:35:06 -
手把手教你Spark性能调优
上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...
2018-10-09 22:35:06 -
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(...
2018-10-09 22:35:06 -
NumPy能力大评估:这里有70道测试题
本 NumPy 测试题旨在为大家提供参考,让大家可以使用 NumPy 的更多功能。问题共分为四个等级,L1 最简单,难度依次增加。机本文对该测试题...
2018-10-09 22:35:06