原创 ambari離線安裝以及hadoop環境搭建詳細過程

一、安裝環境 六臺相同配置的虛擬機 OS:CentOS release 6.5 (Final)(x86_64) Cores (CPU):8 (8) Disk:50GB Memory:8GB 最好先安裝自己的jdk,配置

原创 Spark集羣硬件挑選

Spark 開發者都會反應一個常見問題,如何爲 Spark 配置硬件。然而正確的硬件配置取決於使用的場景,我們提出以下建議。 存儲系統 因爲大多數 Spark 作業都很可能必須從外部存儲系統(例如 Hadoop 文

原创 建模交流學習

以下是今天(20160811)跟阿里的同學交流的關於建模方面的心得。 1.規則-經驗-機器學習 有的時候規則其實更簡單,只不過這是人爲的經驗成分 機器學習其實是想通過大數據學習這種人爲經驗 2.模型是注重性能還是可解釋性?

原创 Hive常用優化方法

1、join連接時的優化:當三個或多個以上的表進行join操作時,如果每個on使用相同的字段連接時只會產生一個mapreduce。 2、join連接時的優化:當多個表進行查詢時,從左到右表的大小順序應該是從小到大。原因:hive

原创 azkaban集羣多節點模式配置

配置多節點執行服務器的時候,需要在AzkabanWebServer的配置文件azkaban.properties裏添加 azkaban.use.multiple.executors=true azkaban.executorsele

原创 Encryption raised an exception

script-test: [echo] Testing encrypt.sh [exec] Exception in thread “main” org.jasypt.exceptions.Encrypti

原创 ambari坑記錄

問題一: 此問題是在安裝註冊主機時遇到的 ('ERROR 2015-02-06 20:09:43,441 NetUtil.py:56 - [Errno 1] _ssl.c:492: error:100AE081:elliptic

原创 hadoop僞分佈式環境搭建記錄

Hadoop快3個月沒接觸了,這階段全是阿里雲的東西,乘着領導讓我給同事講講Hadoop的機會,複習下Hadoop的知識。 hadoop僞分佈式環境搭建記錄20160511 1.解壓hadoop、jdk壓縮包 tar -xvzf ha

原创 Hbase安裝

hbase安裝 export HBASE_HOME=/home/hadoop/hbase-1.0.1 export PATH=$PATH:$HBAS

原创 mysql 身份證明號碼 正則表達式

匹配15和18位 select * from sfzmhm_table where sfzmhm regexp '^[1-9][[:digit:]]{7}((0[[:digit:]])|(1[0-2]))(([0|1|2][[:d

原创 Hadoop 集羣如何選擇合適的硬件

隨着Apache Hadoop的起步,雲客戶的增多面臨的首要問題就是如何爲他們新的的Hadoop集羣選擇合適的硬件。 儘管Hadoop被設計爲運行在行業標準的硬件上,提出一個理想的集羣配置不想提供硬件規格列表那麼簡單。 選擇硬件,爲給

原创 判斷文件是否存在,通配符文件匹配發生錯誤 binary operator expected

time1=$(date -d "$currentTime" +%s) time2=$(($time1-24*3600)) filepath=/root/g01/g_01_api_*_$time2.txt if [ -f $fil

原创 centos下wget: 無法解析主機地址

wget -4 強制使用ipv4 點贊 8 收藏 分享 文章舉報 _delin 發佈了42 篇原創文章 · 獲贊 78 · 訪問量 17萬+ 私信

原创 java8實現spark streaming的wordcount

概念這裏就不說了,從案例開始,慣例,hellowrod,哦不,wordcount。 要計算從一個監聽 TCP socket 的數據服務器接收到的文本數據(text data)中的字數。 主體代碼部分跟spark相差不大,畢竟D

原创 滲透學習:SQL盲注

SQL 盲注 可能會查看、修改或刪除數據庫條目和表 可能原因 未對用戶輸入正確執行危險字符清理 技術描述 該軟件使用受外部影響的輸入來構造 SQL 命令的全部或一部分,但是它未能對可能在 SQL 命令發送到數據庫時修改該命令的元素進行