原创 CD,決策樹
算法的核心問題: 1,按照什麼樣的次序來選擇變量(屬性)? ID3:信息增益 ID3弊端:信息增益的方法傾向於首先選擇因字數較多的變量 C4.5: 信息增益率
原创 RT 降維技術
一,特徵選擇法 1,用篩選器檢測冗餘特徵 a,相關性分析 A,使用scipy.stat pearson([1,2,3],[1,2,3,1]) 計算相關係數,返回相關係數值和p值,P越低則相
原创 CB,樸素貝葉斯和貝葉斯信念網絡
1,樸素貝葉斯需要特徵之間相互獨立的強條件,制約了模型的適用 2,貝葉斯網絡中的一個節點,如果它的父母節點已知,則它條件獨立於它的所有非後代節點 3,每個節點附帶一個條件概率表(CPT),表示該節點和父母節點的聯繫概率
原创 my.cnf解決中文亂碼
[mysqld] default-character-set=utf8 character_set_server=utf8 init_connect='SET NAMES utf8' datadir=/var/lib/mysql sock
原创 hbase on spark -use HiveCxt
maven文件 <properties> <!-- CDH-5.4.1 & Spark-1.3 --> <maven.compiler.source>1.7</maven.compiler.source> <mav
原创 CSV數據導入Parquet表
1,執行sql獲取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2,將csv文件上傳到服務器l
原创 hive over hbase方式將數據導出
CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPar
原创 spark源碼分析只: job 全過程
爲了研究生命週期,往往需要action觸發Job的運行,以RDD的count操作爲例來說明 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum count命
原创 maven配置scala環境
1,配置scala開發環境 maven配置: <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-
原创 java cp 和 hadoop cp
java -cp "/opt/cloudera/parcels/CDH/lib/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-common.jar:/opt/cloudera/
原创 hive over hbase方式將文本庫數據導入hbase
1,創建hbase表Corpus >> create 'Corpus','CF' 2,創建hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic
原创 部署微博自動爬取組件
#!/bin/bash THIS_PATH='/home/bigdata/script/weibo-userid' cd $THIS_PATH if
原创 solr-phoenix
1 , phoenix配置文檔+demo-crud程序 2 , solr索引原理(一次性建立還是每次都建立,對值) 將HBase表中涉及條件過濾的字段和rowkey在Solr中建立索引,通過Solr的多條件查詢快速獲得符合過濾條件的row
原创 2014個人總結
一,2014年技術工作回顧和技術經驗? a,技術工作回顧 1) 基本日誌解析:開發md、vd日誌解析程序以及mapreduce離線批處理程序。 2) visualVM監控hadoop集羣、storm評估、sqoo
原创 CentOS快速安裝mysql
1,查看CentOS自帶mysql是否已安裝。 輸入:yum list installed | grep mysql 2,若有自帶安裝的mysql,如何卸載CentOS系統自帶mysql數據庫? 輸入:yum -y remove m