频道头条

如何画出优秀的架构图？

架构就是对系统中的实体以及实体之间的关系所进行的抽象描述，是一系列的决策。架构是结……

数据挖掘

Hadoop3.0集群安装知识

本文档介绍如何安装和配置Hadoop集群，从少数节点到数千个节点的超大型集群。...
2018-10-09 22:38:17
数据挖掘：关联规则Apriori算法

总结了关联规则挖掘的经典算法Apriori算法，这个算法利用了一个定律：如果一个集合不是频繁项集，则它的所有超集都不是频繁项集，自下...
2018-10-09 22:38:17
Spark：有向无环图（DAG）检测

Spark 是一种与 Hadoop 相似的开源集群计算环境，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中，...
2018-10-09 22:38:17
Spark之性能优化（重点：并行流数据接收）

在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。...
2018-10-09 22:35:06
HBase最佳实践 – Scan用法

HBase从用法的角度来讲其实乏陈可善，所有更新插入删除基本一两个API就可以搞定，要说稍微有点复杂的话，Scan的用法可能会多一些说头。...
2018-10-09 22:35:06
搭建Hadoop大数据处理-环境

由于hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处...
2018-10-09 22:35:06
零基础学习大数据，搭建Hadoop处理环境

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处...
2018-10-09 22:35:06
Hadoop3.0: YARN Resource自定义资源配置说明

yarn支持可扩展资源类型所有节点、应用程序、队列，默认情况下Yarn使用 CPU和内存。资源定义可以扩展为任意的“countable”资源。一个cou...
2018-10-09 22:35:06
如何在Python中用scikit-learn生成测试数据集

测试数据集是小型的专用数据集，它可以让你测试一个机器学习算法或测试工具。数据集中的数据有完整的定义(例如线性或非线性)使你可以...
2018-10-09 22:35:06
一个Spark缓存的使用示例

之前一直不是非常理解Spark的缓存应该如何使用今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果...
2018-10-09 22:35:06
如何使用 scikit-learn 为机器学习准备文本数据

文本数据需要特殊处理，然后才能开始将其用于预测建模。我们需要解析文本，以删除被称为标记化的单词。然后，这些词还需要被编码为...
2018-10-09 22:35:06
HBase跨版本数据迁移总结

某客户大数据测试场景为：Solr类似画像的数据查出用户标签——通过这些标签在HBase查询详细信息。以上测试功能以及性能。...
2018-10-09 22:35:06
手把手教你Spark性能调优

上周四接到反馈，集群部分 spark 任务执行很慢，且经常出错，参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...
2018-10-09 22:35:06
Apache Spark 2.3 重要特性介绍

为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2 3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的连续处理（...
2018-10-09 22:35:06
NumPy能力大评估：这里有70道测试题

本 NumPy 测试题旨在为大家提供参考，让大家可以使用 NumPy 的更多功能。问题共分为四个等级，L1 最简单，难度依次增加。机本文对该测试题...
2018-10-09 22:35:06

首页
上一页
97
98
99
100
101
102
103
104
105
下一页
末页
共 110页1650条