原创 Kerberos + OpenLDAP集成測試

最近研究了下Kerberos + OpenLDAP的集成,得出結論如下: 1、Kerberos 與OpenLDAP是兩套分別獨立的用戶認證系統 2、OpenLDAP主要做用戶管理,其可以作爲Kerberos的用戶存儲數據庫 3、OpenL

原创 用戶畫像之電商大數據

一、 前言大數據時代已經到來,企業迫切希望從已經積累的數據中分析出有價值的東西,而用戶行爲的分析尤爲重要。利用大數據來分析用戶的行爲與消費習慣,可以預測商品的發展的趨勢,提高產品質量,同時提高用戶滿意度。本課程是基於大型電商公司的真實用戶

原创 HBase與MongDB等NoSQL數據庫對比

轉載請註明出處:  jiq•欽's technical Blog - 季義欽 一、開篇 淘寶之前使用的存儲層架構一直是MySQL數據庫,配合以MongDB,Tair等存儲。 MySQL由於開源,並且生態系統良好,本身擁有分庫分表

原创 Hadoop分佈式緩存(DistributedCache)

背景:在使用mapreduce時,各個map之間需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各個map之間共享文件或者tar包 使用distributedCache可以滿足這個需求: distribute

原创 在linux上執行java

javac -cp /home/oracle/export/lib/ojdbc14.jar.jar:/home/oracle/export/lib/poi-ooxml-3.9-20121203.jar:/

原创 HBase數據遷移(3)-自己編寫MapReduce Job導入數據

儘管在將文本文件加載入HBase時importtsv工具十分高效,但在許多情況下爲了完全控制整個加載過程,你可能更想自己編寫MapReduce Job向HBase導入數據。例如在你希望加載其他格式文件時不能使用importtsv工具。

原创 多年以後,我回來了,持續分享

沉默了多年以後,我回來了,持續分享

原创 Oracle 臨時表空間收縮

一、收縮臨時表空間文件  alter tablespace temp shrink tempfile '/jeep/oracle/oradata/ORCL/temp01.dbf' keep 2048m;   二、關閉自動擴展  alte

原创 HBase數據遷移(2)- 使用bulk load 工具從TSV文件中導入數據

HBase提供importtsv工具支持從TSV文件中將數據導入HBase。使用該工具將文本數據加載至HBase十分高效,因爲它是通過MapReduce Job來實施導入的。哪怕是要從現有的關係型數據庫中加載數據,也可以先將數據導入文

原创 maven 倉庫配置 pom中repositories屬性

什麼是Maven倉庫在不用Maven的時候,比如說以前我們用Ant構建項目,在項目目錄下,往往會看到一個名爲/lib的子目錄,那裏存放着各類第三方依賴jar文件,如log4j.jar,junit.jar等等。每建立一個項目,你都需要建立這

原创 maven pom中的repository節點配置沒有起作用

問題描述昨天晚上想用spring boot快速搭建一個web開發的項目,就打開spring boot的doc,按照說明開始嘗試。沒想到出師未捷身先死,第一步就掛了。以下是spring boot的配置文件,參考:http://docs.sp

原创 MySQL鎖定狀態查看命令

1 show processlist; SHOW PROCESSLIST顯示哪些線程正在運行。您也可以使用mysqladmin processlist語句得到此信息。如果您有SUPER權限,您可以看到所有線程。否則,您只能看到您自

原创 TPS和QPS的區別

一、TPS:Transactions Per Second(每秒傳輸的事物處理個數),即服務器每秒處理的事務數。TPS包括一條消息入和一條消息出,加上一次用戶數據庫訪問。(業務TPS = CAPS × 每個呼叫平均TPS)TPS是軟件測試

原创 HBase數據遷移(1)-使用HBase的API中的Put方法

使用HBase的API中的Put是最直接的方法,用法也很容易學習。但針對大部分情況,它並非都是最高效的方式。當需要將海量數據在規定時間內載入HBase中時,效率問題體現得尤爲明顯。待處理的數據量一般都是巨大的,這也許是爲何我們選擇了HB

原创 MapReduce實現大矩陣乘法

轉自http://blog.csdn.net/xyilu/article/details/9066973 引言 何爲大矩陣?Excel、SPSS,甚至SAS處理不了或者處理起來非常困難,需要設計巧妙的分佈式方法才能高效解決基本運算(如