原创 java JDBC 鏈接hive 操作實例

1.在eclipse下面 導入包,簡便方式 new ->mapred project -> 右鍵 ->選擇“Properties”->Java Build Path->Library->Add External Jars 將/usr/hi

原创 TF-IDF 提取文本關鍵詞

TF-IDF是一種統計方法,用於評估某個詞語對於一個文本集或者一個語料庫中的一個文件的重要程度,字詞的重要性隨着其在文本的出現次數成比例增加,但是又會隨着其在語料庫中的頻率反比率下降,多爲搜索引擎應用,作爲文件和用戶搜索的相關程度的度量和

原创 hive與mysql安裝 以及使用

hive:類似一個數據倉庫,管理hadoop的數據,同時可以查看hadoop數據,hive類似一個sql的解析引擎,hive可以把sql的操作轉換爲MR的作業,所以hive操作語言 也叫HSQL,數據的存放一般放在derby 和 mysq

原创 淺談PageRank算法

PageRank,網頁排名,又稱網頁級別、Google左側排名或佩奇排名,是一種由搜索引擎根據網頁之間相互的超鏈接計算的技術,而作爲網頁排名的要素之一,以Google公司創辦人拉里·佩奇(LarryPage)之姓來命名。Google用它來

原创 Hadoop 面試題(一)

自己收集整理面試題以及答案,鑑於沒有什麼標準的答案,如有異議之處還請賜教。 一、內部表和外部表的區別: 1.在創建表的時候,導入數據到外部表,數據並沒有移動到自己的數據倉庫下,而在自己創建表指定的路徑下,而對應於內部表數據是移動到自己的數

原创 TF-IDF結合餘弦相似性 判斷文章相似性

摘自:阮一峯的網絡日誌(http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html) 爲了找出相似的文章,需要用到"餘弦相似性"(cosine similiarity)。

原创 hbase shell 常用命令

hbase shell 常用命令: 名稱 ------- 命令表達式 創建表 ------- create '表名稱', '列名稱1','列名稱2','列名稱N' 添加記錄 ------- put '表名稱',

原创 hadoop多文件輸出

在舊的API中使用多文件輸出,只需要自定義類繼承MultipleTextOutputFormat類 重寫它下面的generateFileNameForKeyValue 方法即可, 直接上例子。 輸入文件 內容: 目的是按照 字母開頭的文

原创 ubuntu下Zookeeper僞分佈安裝

zookeeper:保證數據在集羣之間的數據事物性一致。 介紹一下僞分佈的安裝: 1. 先將下載好的zookeeper.xxx.tar.gz 複製到/usr目錄下(筆者自己的目錄) 2.解壓:  sudo tar -zxvf zookee

原创 C++ 構造,析構順序(靜態對象)

測試代碼:#include <iostream> #include <cstdlib> using namespace std; class A{ public: A(){ cout<<"A

原创 面試題(一) 賦值運算符

劍指offer系列 賦值運算符。 如下類型聲明,爲該類型添加賦值運算符函數? class CMyString{ private:char* m_pData; public: CMyString();

原创 求數組的全排列

給定一個數組,求出全排列的情形? 算法描述: /** — 給定數組 3 4 6 9 8 7 5 2 1 如何求出緊挨着的下一個排列? step1:從後面掃描,找到第一個下降的數(6),並記錄;

原创 二叉樹的操作

對於二叉樹的操作,做一個簡單的總結; Tips:針對於任何樹的操作,首先需要判斷是不是空樹 樹的結構體: int index = 0; typedef struct BiTree { int data; BiTree

原创 Python:安裝BeautifulSoup4模塊

安裝BeautifulSoup4:使用pip install 即可: 在命令行cmd之後輸入:pip install BeautifulSoup4 但是前提是python裏面有pip,若沒有pip指令,請參考上一篇博客,安裝配置好pip;

原创 **360 筆試 登山者行走步數

360 筆試 登山者的步數 分析代碼如下: #include <iostream> #include <cstdlib> #include <cstdio> #include <algorithm> #include <cstring