原创 RSA和DES區別

DES算法好在加/解速度快,密鑰量短,採用對稱加密 RSA算法好在網絡容易實現密鑰管理,便進行數字簽名,算法複雜,加/解速度慢,採用非對稱加密 RSA的速度。 由於進行的都是大數計算,使得RSA最快的情況也比DES慢上100倍,無

原创 hiveserve1或者hiveserve2對錶添加新字段後,desc顯示錶不存在

環境 :hive0.12.0;   hiveserver1和hiveserver2 引用:http://www.aboutyun.com/thread-12274-1-1.html 在hiveserver1上添加新的字段後hiveser

原创 oracle數據庫中的clob大字段同步到不同庫之間的問題解決

首先保證有db_link如dca_link 解決方法辦法如下: 第一步,利用創建臨時表來複制遠程數據庫表中 create global temporary table tmp on commit preserve rows

原创 hive 1.2.0 load data local數據報錯

出錯日誌如下: 15/08/06 18:48:19 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.net.NoRouteToHostException: No

原创 Oracle 鎖的原因及解決辦法

原因 產生的原因最大的可能就是更改數據沒有提交事務,數據庫就將表鎖住!所以在更新時不要用select * from a for update這樣的語句很容易鎖表,可能用select *,t.rowid from t 這樣的語句代替,這個

原创 hive報錯 java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf

啓動Hive時報錯如下: wamdm@WAMDM5:~/hive/build/dist/bin$ ./hive Exception in thread "main" java.lang.NoClassDefFoundError: org/

原创 hadoop2.4的datanode服務啓動不了

問題描述:  虛擬機下兩臺機器一個master一個slave,hadoop啓動後master,而slave的datanode的服務啓動不了。 問題原因: 多次格式化hadoop  namenode -format 引起的。 解決辦法:

原创 在IntelliJ IDEA Community Edition 添加spark1.0.0源碼時出錯

出錯日誌: [5709866]  ERROR - api.util.objectTree.ObjectNode - JDK: 1.7.0_67 [5

原创 文本相似(漢明距離)

漢明距離 《海量數據相似度計算之simhash和海明距離》 介紹了simhash的原理,大家應該感覺到了算法的魅力。但是隨着業務的增長 simhash的數據也會暴增,如果一天100w,10天就1000w了。我們如果插入一條數據就要去比較1

原创 圖片相似度(漢明距離)

Google、Baidu 等搜索引擎相繼推出了以圖搜圖的功能,測試了下效果還不錯~ 那這種技術的原理是什麼呢?計算機怎麼知道兩張圖片相似呢? 根據Neal Krawetz博士的解釋,原理非常簡單易懂。我們可以用一個快速算法,就達到基本的效

原创 自然語言-news recommed

1

原创 特徵工程

圖片摘自網絡 重點說下特徵的分類,特徵處理,和特徵選擇 特徵分類:  1.Low level特徵和High level特徵;  2.穩定特徵與動態特徵;  3.二值特徵、連續特徵、枚舉特徵; 特徵處理,分析 1.特徵歸一化,離散化,缺

原创 spark MLlib之分類和迴歸

MLlib支持多種方法用來處理二分分類,多類分類以及迴歸分析,下表列出了問題及對應的處理方法: 問題類型 支持的方法 二分分類 現行SVM,邏輯迴歸,決策樹,貝葉斯 多類分類 決策樹,貝葉斯 迴歸 線性最小二乘

原创 機器學習-微積分基礎總結(一)

學習微積分之前需要知道 導數,矩陣等基本概念 高中基礎即可 在看微積分基礎鏈接中資料可能遇到的不理解的地方可以參考如下總結 海森Hessian矩陣 最優化問題 簡化推導 拉格朗日乘子,函數深入理解 講的深入淺出 泰勒公式通俗理解 微

原创 自然語言 基礎(一)

學習nlp過程中總結內容: 詞向量和語言模型 主要講述詞向量由來,訓練,評價等 衍生出來的神經網絡淺顯入門的例子 資料鏈接來源:@阮一峯的網絡日誌,@licstar的博客