行业报告 AI展会 数据标注 标注供求
数据标注数据集
您的当前位置:主页 > 数据挖掘 >

数据挖掘

  • Hadoop3.0集群安装知识

    Hadoop3.0集群安装知识

    本文档介绍如何安装和配置Hadoop集群,从少数节点到数千个节点的超大型集群。...

    2018-10-09 22:38:17
  • 数据挖掘:关联规则Apriori算法

    数据挖掘:关联规则Apriori算法

    总结了关联规则挖掘的经典算法Apriori算法,这个算法利用了一个定律:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集,自下...

    2018-10-09 22:38:17
  • Spark:有向无环图(DAG)检测

    Spark:有向无环图(DAG)检测

    Spark 是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,...

    2018-10-09 22:38:17
  • Spark之性能优化(重点:并行流数据接收)

    Spark之性能优化(重点:并行流数据接收)

    在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。...

    2018-10-09 22:35:06
  • HBase最佳实践 – Scan用法

    HBase最佳实践 – Scan用法

    HBase从用法的角度来讲其实乏陈可善,所有更新插入删除基本一两个API就可以搞定,要说稍微有点复杂的话,Scan的用法可能会多一些说头。...

    2018-10-09 22:35:06
  • 搭建Hadoop大数据处理-环境

    搭建Hadoop大数据处理-环境

    由于hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...

    2018-10-09 22:35:06
  • 零基础学习大数据,搭建Hadoop处理环境

    零基础学习大数据,搭建Hadoop处理环境

    由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...

    2018-10-09 22:35:06
  • Hadoop3.0: YARN Resource自定义资源配置说明

    Hadoop3.0: YARN Resource自定义资源配置说明

    yarn支持可扩展资源类型 所有节点、应用程序、队列,默认情况下Yarn使用 CPU和内存。资源定义可以扩展为任意的“countable”资源。一个cou...

    2018-10-09 22:35:06
  • 如何在Python中用scikit-learn生成测试数据集

    如何在Python中用scikit-learn生成测试数据集

    测试数据集是小型的专用数据集,它可以让你测试一个机器学习算法或测试工具。数据集中的数据有完整的定义(例如线性或非线性)使你可以...

    2018-10-09 22:35:06
  • 一个Spark缓存的使用示例

    一个Spark缓存的使用示例

    之前一直不是非常理解Spark的缓存应该如何使用 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果...

    2018-10-09 22:35:06
  • 如何使用 scikit-learn 为机器学习准备文本数据

    如何使用 scikit-learn 为机器学习准备文本数据

    文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为...

    2018-10-09 22:35:06
  • HBase跨版本数据迁移总结

    HBase跨版本数据迁移总结

    某客户大数据测试场景为:Solr类似画像的数据查出用户标签——通过这些标签在HBase查询详细信息。以上测试功能以及性能。...

    2018-10-09 22:35:06
  • 手把手教你Spark性能调优

    手把手教你Spark性能调优

    上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...

    2018-10-09 22:35:06
  • Apache Spark 2.3 重要特性介绍

    Apache Spark 2.3 重要特性介绍

    为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(...

    2018-10-09 22:35:06
  • NumPy能力大评估:这里有70道测试题

    NumPy能力大评估:这里有70道测试题

    本 NumPy 测试题旨在为大家提供参考,让大家可以使用 NumPy 的更多功能。问题共分为四个等级,L1 最简单,难度依次增加。机本文对该测试题...

    2018-10-09 22:35:06
数据标注服务

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号

返回顶部