原创 CentOS-6.3安裝配置JDK-8

系統環境:CentOS 6.3 64位 安裝方式:rpm安裝 軟件:jdk-8-linux-x64.rpm下載地址:http://www.orac

原创 hive-學習內容

1 hive的正則匹配搜索表   show tables like "%sub_name";   show tables like "s*";//以s開頭的所有的表格 2查看錶結構  desc table_name; desc form

原创 hive_優化

什麼是數據傾斜 •由於數據的不均衡原因,導致數據分佈不均勻,造成數據大量的集中到一點,造成數據熱點 Hadoop框架的特性 •不怕數據大,怕數據傾斜 •jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關

原创 我們每天使用互聯網,你是否想過,它是如何實現的? 全世界幾十億臺電腦,連接在一起,兩兩通信。上海的某一塊網卡送出信號,洛杉磯的另一塊網卡居然就收到了,兩者實際上根本不知道對方的物理位置,你不覺得這是

我們每天使用互聯網,你是否想過,它是如何實現的? 全世界幾十億臺電腦,連接在一起,兩兩通信。上海的某一塊網卡送出信號,洛杉磯的另一塊網卡居然就收到了,兩者實際上根本不知道對方的物理位置,你不覺得這是很神奇的事情嗎? 互聯網的核心是一

原创 使用JSoup解析HTML文件

HTML是WEB的核心,互聯網中你看到的所有頁面都是HTML,不管它們是由JavaScript,JSP,PHP,ASP或者是別的什麼WEB技術動態生成的。你的瀏覽器會去解析HTML並替你去渲染它們。不過如果你需要自己在Java程序中解析

原创 jsoup解析HTML用法小結

使用HttpClient+jsoup做採集器有一段時間了,發現jsoup很好用,而且還有很多方便的東西都沒怎麼用上。於是想根據官網上的cookbook來對jsoup的使用做個小結,或者是歸納。按功能分類做個列表,方便在寫程序的時候快速翻

原创 Quartz使用-入門使用(java定時任務實現)

很久沒有用Quartz了,居然忘記如何使用了,這裏趕緊記錄下對Quartz就不說明了,直接上代碼 這裏使用的是quartz-1.8.3.jar 簡單的任務管理類 /*  * 版權所有: 姜勇剛  * 項

原创 eclipse中maven配置

1.下載Maven 官方下載地址:http://maven.apache.org/download.html 選擇你所希望下載的版本,並保存到常用安裝目錄。這裏以Maven 3.2.2 (Binary zip)爲例(二進制文件可直接

原创 Windows + IntelliJ IDEA 下配置 python scala 插件的方法

Windows + IntelliJ IDEA 下配置 python scala 插件的方法 1.訪問http://www.python.org/download/下載最新的Python版本 2.下載,解壓 3.配置環境變量

原创 下一代Apache Hadoop MapReduce框架的架構

背景 隨着集羣規模和負載增加,MapReduce JobTracker在內存消耗,線程模型和擴展性/可靠性/性能方面暴露出了缺點,爲此需要對它進行大整修。 需求 當我們對Hadoop MapReduce框架進行改進時,需要時刻謹記的一個重

原创 Python編碼格式說明及轉碼函數encode和decode的使用

字符串編碼常用類型:utf-8,gb2312,cp936,gbk等。 Python中,我們使用decode()和encode()來進行解碼和編碼 在python中,使用unicode類型作爲編碼的基礎類型。即 decode

原创 安裝numpy+scipy+matlotlib+scikit-learn及問題解決

這篇文章主要講述Python如何安裝Numpy、Scipy、Matlotlib、Scikit-learn等庫的過程及遇到的問題解決方法。最近安裝這個真是一把淚啊,各種不兼容問題和報錯,希望文章對你有所幫助吧!你可能遇到的問題包括: I

原创 【Jsoup學習禮記】設置元素的文本內容

問題 你需要修改一個HTML文檔中的文本內容 方法 可以使用Element的設置方法:: Element div = doc.select("div").first(); // <div></div> div.text("five

原创 Linux 下上傳下載命令,SCP,SFTP,FTP

scp 幫助命令: man scp scp功能: 下載遠程文件或者目錄到本地, 如果想上傳或者想下載目錄,最好的辦法是採用tar壓縮一下,是最明智的選擇. 從遠程主機 下載東西到 本地電腦 拷貝文件命令 scp user@host

原创 常用 Git 命令清單

我每天使用 Git ,但是很多命令記不住。 一般來說,日常使用只要記住下圖6個命令,就可以了。但是熟練使用,恐怕要記住60~100個命令。 下面是我整理的常用 Git 命令清單。幾個專用名詞的譯名如下。 Workspace:工作區