数据挖掘
-
Hadoop完全分布式集群安装Hbase
当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接...
2018-10-09 22:41:15 -
机器学习:单词拼写纠正器python实现
借助朴素贝叶斯分类器的基本思想,编写一个单词拼写纠正器,它大致实现的功能如下:...
2018-10-09 22:41:15 -
高并发“热点”缓存数据快速“退火”
电商场景促销活动的会场页由于经常集中在某个时间点进行“秒杀”促销,这些页面的QPS(服务器每秒可以处理的请求量)往往特别高,数据库...
2018-10-09 22:41:15 -
Python oracle数据库操作时,中文查询报错
作者:Ge__python中使用oracle数据库进行查询时,出现下面的错误:UnicodeEncodeError: 39;ascii 39; codec can 39;t encode char...
2018-10-09 22:41:15 -
基于 Python 的 Scrapy 爬虫入门:代码详解
接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如...
2018-10-09 22:41:15 -
python自动发邮件库yagmail
一般发邮件方法我以前在通过Python实现自动化邮件功能的时候是这样的:import smtplibfrom email mime text import MIMETextfrom emai...
2018-10-09 22:41:15 -
用Python实现了一个大数据数据搜索引擎
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据...
2018-10-09 22:41:15 -
Spark作业如何在无管理权限的集群部署Python或JD
在现实情况下,我们需要的 JDK 版本可能并没有在集群上安装,这个时候咋办?是不是就没办法呢?答案肯定不是,本文就是介绍如何解决这种...
2018-10-09 22:41:15 -
hadoop(04)、Hadoop 集群模式搭建实践
本文我们将在linux(CentOS7)下搭建hadoop集群模式,以便实践更多场景下hadoop的使用,尤其是在实际的生产模式中,必定是以集群模式存在。...
2018-10-09 22:41:15 -
浅析:spark认知
Spark是一种基于内存的开源计算框架,不同于Hadoop的MapReduce和HDFS,Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、Spark ...
2018-10-09 22:41:15 -
教你玩转Hadoop分布式集群搭建,进击大数据
终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,...
2018-10-09 22:41:15 -
在数据预处理阶段,特征的标准化有哪些方法?
特征标准化(Feature Standardization)的作用是将样本数据中的每一列特征缩放到一个统一的尺度。方法有很多种,我列几个最常用的。...
2018-10-09 22:41:15 -
17个新手常见Python运行时错误
当初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂。这里列出了常见的的一些让你程序 crash 的运行时错误。...
2018-10-09 22:41:15 -
Hbase万亿级存储性能优化总结
hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟...
2018-10-09 22:41:15 -
用 Python 连接 MySQL 的几种姿势
尽管很多 NoSQL 数据库近几年大放异彩,但是像 MySQL 这样的关系型数据库依然是互联网的主流数据库之一,每个学 Python 的都有必要学好一门...
2018-10-09 22:41:15