原创 freeBSD掛載windows共享文件夾

不用安裝任何其他軟件。直接用命令  mount_smbfs -I windowsip //usename@computername/共享文件夾 /m

原创 關於延遲隊列實現(delay queue)

首先經常有人問,KAFKA有實現消息隊列延遲消費的功能嗎? 答案是否定的。但是,我們可以通過一些方法變通一下,也是可以實現延遲消費。 第一種: 如果你消費時間不是太複雜,甚至是固定的,那麼你可以在producer端根據不同的延遲消費邏輯把

原创 Linux和FreeBSD在使用非系統自帶的gcc時的區別

  下面拿CentOS 5和FreeBSD 9.0做下比較:   CentOS 5 自帶的gcc是gcc (GCC) 4.1.2,通過yum可以安裝gcc44 (GCC) 4.4.4   FreeBSD 9.0 自帶的gcc是gcc (

原创 解決k8s(kubernetes)無法刪除fail pod(status unknown)

當有節點掛了之後,導致容器無法刪除;即使顯示刪除成功,但還是可以在dashboard裏面看到fail pod的信息 經過科技上網,遍尋國內外之後,終於找到解決方法,吾不敢獨享,所以各位看官請看: 首先強力刪除: kubectl delet

原创 新舊版本FileInputFormat獲得輸入分片的不同

有接觸過hadoop的都應該清楚InputFormat 裏有個getSplits方法,用來獲得輸入分片,並最終影響map task的數量。網上關於split的描述千奇百怪,各家說法都不一樣,前幾天一個老師跟我講的FileInputFor

原创 修改hadoop的備份係數dfs.replication

 Hadoop中常常需要增加新的節點,或者變更備份係數。在完成這些操作後,往往出現數據未自動備份,或者數據節點不可用的情況。本文就討論一下這個問題。 Hadoop的備份係數是指每個block在hadoop集羣中有幾份,係數越高,冗餘性

原创 理解postgresql數據表與其對應的數據文件關係

 方法一:通過查找表數據文件方式      這種方法通過查找表的數據文件的方式從而確定表的創建時間,但是這種方法並不能準備查詢表的創建 時間,而且有時候,這種方法得到的信息還有可能是錯誤的,下面大致演示下。 --1.1 創建表並插入數

原创 說說我對spark-sql的job的參數調優

首先要說的是機器配置 namenode/datanode:  cpu : 8core  memory: 56G 我現在是基於yarn+spark的架構來說。 現在設置 yarn.nodemanager.resource.memory-

原创 Kerberos and SPNEGO

 Kerberos and SPNEGO Thursday, 23 September 2010 19:03 Kerberos is a network authentication protocol for client/ser

原创 Hadoop2.0的HA介紹

 Hadoop2.0的HA介紹 時間 2014-05-03 17:42:25 Linux公社 原文  http://www.linuxidc.com/Linux/2014-05/101174.htm 主題 Hadoop

原创 MapReduce應用中CombineFileInputFormat原理與用法

MapReduce應用中CombineFileInputFormat原理與用法 HDFS本身被設計來存儲大文件,但是有時難免會有小文件出現,有時很可能時大量的小文件。通過MapReduce處理大量小文件時

原创 hadoop mapreduce 對於壓縮文件的支持利與弊

hadoop對於壓縮文件的支持 hadoop對於壓縮格式的是透明識別,我們的MapReduce任務的執行是透明的,hadoop能夠自動爲我們 將壓縮的文件解壓,而不用我們去關心。 如果我們壓縮的文件有相

原创 Hive 優化

Hive 針對不同的查詢進行了優化,優化可以通過配置進行控制,本文將介紹部分優化的策略以及優化控制選項。 列裁剪(Column Pruning) 在讀數據的時候,只讀取查詢中需要用到的列,而忽略其他列。

原创 詳解HDFS Short Circuit Local Reads

 詳解HDFS Short Circuit Local Reads Hadoop的一大基本原則是移動計算的開銷要比移動數據的開銷小。因此,Hadoop通常是儘量移動計算到擁有數據的節點上。這就使得Hadoop中讀取數據的客戶端DFSC

原创 linux查看文件和文件夾大小

 當磁盤大小超過標準時會有報警提示,這時如果掌握df和du命令是非常明智的選擇。     df可以查看一級文件夾大小、使用比例、檔案系統及其掛入點,但對文件卻無能爲力。     du可以查看文件及文件夾的大小。     兩者配合使用