原创 Git入門

Git入門 簡介 Git是一個免費開源的分佈式版本控制系統,用於管理項目的方方面面,能夠高速、高效地用於從小項目到非常大的項目。 工作流程及術語 工作空間(workspace):當前項目文件夾 索引(index):工作空間索引

原创 linux查看CPU線程信息

linux查看CPU線程信息 定義 -多處理器指安裝在同一塊主板上的多顆處理器 -多核指單顆處理器包含多個完整的計算引擎(內核) -多線程指單核在硬件上實現多個線程併發執行的技術 處理器信息 $cat /proc/cpuinf

原创 A Scala Tutorial for Java programmers

Scala Scala hello world Interaction with Java Object Numbers are objects Object Functions are objects Object Anon

原创 內存管理(翻譯中)

第三章 內存管理 虛擬內存抽象模型 請求分頁 交換空間 共享虛擬內存 物理和虛擬地址模式 訪問控制 緩存 第三章 內存管理 http://www.tldp.org/LDP/tlk/mm/memory.html 內

原创 jsoup解析HTML

jsoup解析HTML jsoup是一款HTML解析java庫,其功能強大,使用簡單,是HTML處理的最佳之選。 jsoup隨包例程 package org.jsoup.examples; import org.jsoup.Js

原创 初識大數據

前記 2016年國慶節後,加入延雲公司,公司主要從事大數據即席分析,主要產品圍繞Hadoop和Spark開展。新的公司、新的行業,也開始了新的工作和學習方式“寫博客”。除了記錄和總結工作心得,也希望能分享一些有價值的經驗。 Had

原创 代碼量統計

shell命令統計代碼量 項目代碼總量 find . -name *.scala | xargs -ixxx wc xxx | awk '{a=a+1;b=b+$1;c=c+$2;d=d+$3}END{print "scala :

原创 shell中的特殊字符

shell中的特殊字符 shell中的特殊字符 註釋 變量取值 參數取值 返回值 執行最近命令 執行歷史列表中的命令 執行最近相似命令 註釋’#’ [root@localhost ~]# #hello world [r

原创 SVN服務器搭建

SVN服務器搭建 Hadoop生態 圈的源碼大部分都需要在linux環境下編譯和執行。而個人使用的環境爲windows,因此需要經常在兩個系統(虛擬機)間切換。 近日,一直在尋找一款同個系統中源碼同步的軟件,這樣就可以在熟悉

原创 記一次遇到的文件亂碼的問題

問題 近日遇到CentOS下,解壓文件後,中文文件名及文本內中文內容均爲亂碼的問題。經百度後解決,這裏記錄一下解決過程,以備後用。 解決過程 文件名顯示亂碼 [titi@mine example]$ ls -l total 208

原创 YDB系統JDBC接口訪問工具

YDB系統JDBC接口訪問工具 YDB:實時在線分析(OLAP)系統 YDB:實時在線分析(OLAP)系統:是我公司自主研發的一個大型分佈式索引系統。旨在爲數據總量爲萬億級別、每天千億級別數據增量的項目提供近似實時的數據導入,並提

原创 MapRedcue例程編譯和執行

MapRedcue例程編譯和執行 簡介 例程的編譯過程參考MapReduce Tutorial[1],歷程WordCount.java內容見附錄。 Linux平臺 開發環境 JDK1.8.0 Hadoop2.5.2 環境變量

原创 項目代碼量統計(shell)

簡介 本文介紹瞭如何利用shell統計項目代碼量的方法。統計輸出爲項目源代碼文件數、代碼行數、單詞數和字節數,統計結果包含註釋內容,代碼行數指文本行數。 統計項目代碼總量 $ find . -name *.java | xargs

原创 YDB 數據類型與表級異構存儲

總所周知,企業級的固態硬盤(SSD)價格數倍於機械硬盤,一般高達 10:1 。爲了追求性價比,我們會對數據區別對待,只將對性能影響最大的數據存儲在固態硬盤上。爲了實現這個功能,YDB 提供了表級的異構存儲。 YDB 表級異構存儲本質上就是

原创 YupDB 數據庫系統

Hadoop生態圈是專門爲大數據處理而誕生的,每個工具都有自己的特性,各有各的用處,相互間又有重合。HDFS解決了大數據的分佈式存儲問題,MapReduce使批處理方式訪問大數據成爲可能,Hive引入了SQL接口將大數據直接開放給廣大的數