原创 Apache ZooKeeper講義
• 概述• 安裝• 結構與原理• 應用場景• Zookeeper rmi高可用實現• 基於zookeeper• redis高可用
原创 Spark中RDD的常用操作(Python)
Spark中RDD的常用操作(Python) 彈性分佈式數據集(RDD) Spark是以RDD概念爲中心運行的。RDD是一個容錯的、可以被並行操作的元素集合。創建一個RDD有兩個方法:在你的驅動程序中並行化一個已
原创 hadoop執行環境
System.setProperty("HADOOP_USER_NAME", "root");1、MR執行環境有兩種:本地測試環境,服務器環境 本地測試環境(windows): 在windows的hadoo
原创 服務器集羣
Apache 和 nginx(web服務器)1、 多臺集羣機器聯合處理一個任務。2、 一臺機器處理不同的多個任務。特點: 處理靜態數據速度快(自動html靜態數據的緩存) 併發數一般要比J2EE服務器要
原创 Hadoop入門配置
Hadoop入門配置 主從機構 主:jobtracker 從:tasktracker四個階段:1、 Split2、 Mapper:key-value(對象)3、 Shufflea) 分區(part
原创 Linux Virtual Server
Linux Virtual ServerIpvs : 嵌入到linux的內核IPVsadm:管理應用程序 負載均衡器1、硬件: F5BIG-IP CitrixNet
原创 高可用HA
HighAvailable 1、 需要心跳機制探測後端RS是否提供服務。a) 探測down,需要從lvs中刪除該RSb) 探測發送從down到up,需要從lvs中再次添加RS。2、 Lvs DR,需要主從(HA) Keep
原创 hadoop2.8.0僞分佈配置文件配置
core-site.xml: <configuration> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/tmp</value> <final>tru
原创 nginx 負載均衡配置
NginxNginx ("engine x") 是一個高性能的 HTTP 和 反向代理 服務器,也是一個 IMAP/POP3/SMTP 代理服務器。第一個公開版本0.1.0發佈於2004年10月4日。其將源
原创 spark python wordcount
#!/usr/bin/python # -*- coding: UTF-8 -*- ''' 初始化SparkConf, SparkContext 從pyspark 導入SparkConf, SparkContext ''' from py
原创 windows下python spark環境搭建
本環境搭建只是在windows下使用python編寫spark程序有提示 1、安裝python2.7 (省略) 下載安裝包一直下一步安裝即可 2、配置spark 下載spark-2.2.0-bin-hadoop2.7.tgz 解壓到C:\
原创 spark方法收集
轉化操作 map(func) | 返回一個新的分佈數據集,由原數據集元素經func處理後的結果組成 filter(func) | 返回一個新的數據集,由傳給func返回True的原數據集元素組成 flat