原创 CD,決策樹

算法的核心問題: 1,按照什麼樣的次序來選擇變量(屬性)?     ID3:信息增益         ID3弊端:信息增益的方法傾向於首先選擇因字數較多的變量    C4.5: 信息增益率                         

原创 RT 降維技術

一,特徵選擇法     1,用篩選器檢測冗餘特徵         a,相關性分析             A,使用scipy.stat  pearson([1,2,3],[1,2,3,1]) 計算相關係數,返回相關係數值和p值,P越低則相

原创 CB,樸素貝葉斯和貝葉斯信念網絡

1,樸素貝葉斯需要特徵之間相互獨立的強條件,制約了模型的適用 2,貝葉斯網絡中的一個節點,如果它的父母節點已知,則它條件獨立於它的所有非後代節點 3,每個節點附帶一個條件概率表(CPT),表示該節點和父母節點的聯繫概率

原创 my.cnf解決中文亂碼

[mysqld] default-character-set=utf8 character_set_server=utf8 init_connect='SET NAMES utf8' datadir=/var/lib/mysql sock

原创 hbase on spark -use HiveCxt

maven文件 <properties>     <!-- CDH-5.4.1 & Spark-1.3 -->     <maven.compiler.source>1.7</maven.compiler.source>     <mav

原创 CSV數據導入Parquet表

1,執行sql獲取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2,將csv文件上傳到服務器l

原创 hive over hbase方式將數據導出

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPar

原创 spark源碼分析只: job 全過程

爲了研究生命週期,往往需要action觸發Job的運行,以RDD的count操作爲例來說明 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum count命

原创 maven配置scala環境

1,配置scala開發環境 maven配置: <build>  <plugins>  <plugin>  <groupId>org.apache.maven.plugins</groupId>  <artifactId>maven-

原创 java cp 和 hadoop cp

java -cp "/opt/cloudera/parcels/CDH/lib/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-common.jar:/opt/cloudera/

原创 hive over hbase方式將文本庫數據導入hbase

1,創建hbase表Corpus >> create 'Corpus','CF' 2,創建hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic

原创 部署微博自動爬取組件

#!/bin/bash THIS_PATH='/home/bigdata/script/weibo-userid' cd $THIS_PATH if

原创 solr-phoenix

1 , phoenix配置文檔+demo-crud程序 2 , solr索引原理(一次性建立還是每次都建立,對值) 將HBase表中涉及條件過濾的字段和rowkey在Solr中建立索引,通過Solr的多條件查詢快速獲得符合過濾條件的row

原创 2014個人總結

一,2014年技術工作回顧和技術經驗?  a,技術工作回顧     1) 基本日誌解析:開發md、vd日誌解析程序以及mapreduce離線批處理程序。     2) visualVM監控hadoop集羣、storm評估、sqoo

原创 CentOS快速安裝mysql

1,查看CentOS自帶mysql是否已安裝。 輸入:yum list installed | grep mysql 2,若有自帶安裝的mysql,如何卸載CentOS系統自帶mysql數據庫? 輸入:yum -y remove m