原创 Scala高階編程之協變、逆變和不變

1、Scala的協變(+),逆變(-),協變covariant、逆變contravariant、不可變invariant 2、對於一個帶類型參數的類型,比如List[T],如果對A極其子類型B,滿足List[B]也符合List[A]的子類

原创 磁盤掛載分配

umount /websphere 刪除/etc/fstab中的最後含有這個的一行: /dev/mapper/datavg-vg1 /websphere………… 刪除原有lv:lvremove /dev/datavg/vg1 重新調整d

原创 storm 環境搭建問題解決

Running: /data/service/jdk1.8.0_111/bin/java -client -Ddaemon.name= -Dstorm.options= -Dstorm.home=/usr/local/storm/stor

原创 Flume:SpoolDir實戰

#source的名字 agent.sources = s1 # channels的名字 agent.channels = c1 # sink的名字 # 指定source使用的channel agent.sources.s1.channe

原创 Scala多線程

Runnable/Callable 入門級區別:Runnable無返回值,Callable線程執行完有返回值。 深入源碼後面會詳解。 Runnable示例 import java.util.concurrent.{Executors,

原创 生成Hfile 並給HDFSSHELL授權

package cn.jkjf.bigdata.utils.test import java.text.SimpleDateFormat import java.util.{Date, UUID} import cn.jkjf.bi

原创 Hadoop文件歸檔OOM解決

export HADOOP_CLIENT_OPTS=-Xmx20g

原创 Spark讀取Kafka 高低階API

1、KafkaUtils.createDstream 構造函數爲KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] )  使用了r

原创 Hand_iris_knn

# _*_coding:utf-8 _*_ import csv import operator import random import numpy as np def loadDataSet(file_name, split,

原创 Spark深入淺出之從物理執行角度看Spark

一、思考pipeline 即使採用pipeline的方式,函數f對依賴的RDD中的數據集合的操作也會有兩種方式: 1、f (record) ,f作用於集合的每一條記錄,每次只作用於一條記錄 2、f(records),f 一次性作用於集合的

原创 Spark二次排序

二次排序具體實現步驟: 按照Ordered和serrializable接口實現自定義排序key 將要進行二次排序的文件假造進來生成<key,value>類型的RDD 使用sortbykey基於自定義的key進行二次排序 去除掉排序的key

原创 SparkHbase 切分Hfil, 海量數據優化

package cn.jkjf.bigdata.utils.test import cn.jkjf.bigdata.utils.mysql.Global import org.apache.hadoop.conf.Configu

原创 Scala 生成一個Hfile

package cn.jkjf.bigdata.utils.hbase import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase.util.B

原创 sk_iris_knn

# -*- coding:utf-8 -*- import numpy as np from sklearn.datasets import load_iris from sklearn.datasets.base import Bun