台部落天然呆的技术博客

算法的核心問題： 1，按照什麼樣的次序來選擇變量(屬性)？ ID3：信息增益 ID3弊端：信息增益的方法傾向於首先選擇因字數較多的變量 C4.5: 信息增益率

2020-06-22 00:00:43

一，特徵選擇法 1，用篩選器檢測冗餘特徵 a，相關性分析 A，使用scipy.stat pearson([1,2,3],[1,2,3,1]) 計算相關係數，返回相關係數值和p值，P越低則相

2020-06-22 00:00:43

1，樸素貝葉斯需要特徵之間相互獨立的強條件，制約了模型的適用 2，貝葉斯網絡中的一個節點，如果它的父母節點已知，則它條件獨立於它的所有非後代節點 3，每個節點附帶一個條件概率表（CPT），表示該節點和父母節點的聯繫概率

2020-06-22 00:00:43

[mysqld] default-character-set=utf8 character_set_server=utf8 init_connect='SET NAMES utf8' datadir=/var/lib/mysql sock

2020-06-22 00:00:43

maven文件 <properties>  <maven.compiler.source>1.7</maven.compiler.source> <mav

2020-02-25 10:17:16

1，執行sql獲取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2，將csv文件上傳到服務器l

2020-02-25 10:17:16

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPar

2020-02-25 10:17:16

爲了研究生命週期，往往需要action觸發Job的運行，以RDD的count操作爲例來說明 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum count命

2020-02-25 10:17:16

1，配置scala開發環境 maven配置： <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-

2020-02-25 10:17:16

java -cp "/opt/cloudera/parcels/CDH/lib/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-common.jar:/opt/cloudera/

2020-02-25 10:17:16

1，創建hbase表Corpus >> create 'Corpus','CF' 2，創建hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic

2020-02-25 10:17:16

#!/bin/bash THIS_PATH='/home/bigdata/script/weibo-userid' cd $THIS_PATH if

2020-02-25 10:17:16

1 , phoenix配置文檔+demo-crud程序 2 , solr索引原理（一次性建立還是每次都建立，對值）將HBase表中涉及條件過濾的字段和rowkey在Solr中建立索引，通過Solr的多條件查詢快速獲得符合過濾條件的row

2020-02-25 10:17:16

一，2014年技術工作回顧和技術經驗？ a，技術工作回顧 1) 基本日誌解析：開發md、vd日誌解析程序以及mapreduce離線批處理程序。 2) visualVM監控hadoop集羣、storm評估、sqoo

2020-02-25 10:17:16

1，查看CentOS自帶mysql是否已安裝。輸入：yum list installed | grep mysql 2，若有自帶安裝的mysql，如何卸載CentOS系統自帶mysql數據庫？輸入：yum -y remove m

2020-02-25 10:17:16