原创 Apache ZooKeeper講義

•          概述•          安裝•          結構與原理•          應用場景•          Zookeeper rmi高可用實現•          基於zookeeper•  redis高可用

原创 Spark中RDD的常用操作(Python)

Spark中RDD的常用操作(Python) 彈性分佈式數據集(RDD)         Spark是以RDD概念爲中心運行的。RDD是一個容錯的、可以被並行操作的元素集合。創建一個RDD有兩個方法:在你的驅動程序中並行化一個已

原创 hadoop執行環境

System.setProperty("HADOOP_USER_NAME", "root");1、MR執行環境有兩種:本地測試環境,服務器環境 本地測試環境(windows): 在windows的hadoo

原创 服務器集羣

Apache 和 nginx(web服務器)1、  多臺集羣機器聯合處理一個任務。2、  一臺機器處理不同的多個任務。特點:         處理靜態數據速度快(自動html靜態數據的緩存)         併發數一般要比J2EE服務器要

原创 Hadoop入門配置

Hadoop入門配置 主從機構         主:jobtracker    從:tasktracker四個階段:1、  Split2、  Mapper:key-value(對象)3、  Shufflea)        分區(part

原创 Linux Virtual Server

Linux Virtual ServerIpvs : 嵌入到linux的內核IPVsadm:管理應用程序 負載均衡器1、硬件:                   F5BIG-IP                    CitrixNet

原创 高可用HA

HighAvailable 1、 需要心跳機制探測後端RS是否提供服務。a)     探測down,需要從lvs中刪除該RSb)     探測發送從down到up,需要從lvs中再次添加RS。2、 Lvs DR,需要主從(HA) Keep

原创 hadoop2.8.0僞分佈配置文件配置

core-site.xml: <configuration>  <property>   <name>hadoop.tmp.dir</name>   <value>/home/hadoop/tmp</value>   <final>tru

原创 nginx 負載均衡配置

NginxNginx ("engine x") 是一個高性能的 HTTP 和 反向代理 服務器,也是一個 IMAP/POP3/SMTP 代理服務器。第一個公開版本0.1.0發佈於2004年10月4日。其將源

原创 spark python wordcount

#!/usr/bin/python # -*- coding: UTF-8 -*- ''' 初始化SparkConf, SparkContext 從pyspark 導入SparkConf, SparkContext ''' from py

原创 windows下python spark環境搭建

本環境搭建只是在windows下使用python編寫spark程序有提示 1、安裝python2.7 (省略) 下載安裝包一直下一步安裝即可 2、配置spark 下載spark-2.2.0-bin-hadoop2.7.tgz 解壓到C:\

原创 spark方法收集

轉化操作 map(func) | 返回一個新的分佈數據集,由原數據集元素經func處理後的結果組成 filter(func) | 返回一個新的數據集,由傳給func返回True的原數據集元素組成 flat