原创 數據存儲模型

在互聯網行業,通常需要高併發、高性能、高可用性的數據庫系統。在處理大數據時,關係型數據庫遭遇了瓶頸,這就促使我們思考從數據模型的根源入手,來解決性能上的問題。根據數據的存儲模型和特點,NoSQL數據庫分爲很多種類,主要分爲以下四個類型:鍵

原创 HDFS元數據解析

2.1 概述 從形式上講,元數據可分爲內存元數據和元數據文件兩種。其中NameNode在內存中維護整個文件系統的元數據鏡像,用於HDFS的管理;元數據文件則用於持久化存儲。 從類型上講,元數據有三類重要信息: 第一類是文件和目錄自身的

原创 ACID與BASE

正如CAP理論所指出的,一致性、可用性和分區容錯性不能同時滿足。對於數據不斷增長的系統(如社會計算、網絡服務的系統),它們對可用性及分區容錯性的要求高於強一致性,並且很難滿足事務所要求的ACID特性,因此BASE理論被提出。 BASE方

原创 數據一致性實現技術

2.4.1 Quorum系統NRM策略 Quorum協議有三個關鍵值N、R和W。 N表示數據所具有的的副本數。 R表示完成讀操作所需要讀取的最小副本數,即一次讀操作所需參與的最小節點數目。 W表示完成寫操作所需要寫入的最小副本數,即一次寫

原创 HDFS HA 及解決方案

HDFS(Hadoop Distributed File System) Hadoop分佈式文件系統,爲Hadoop這個分佈式計算框架提供高性能、高可靠、高可擴展的存儲服務。 1.1 HDFS系統架構 HDFS的系統架構是典型的主/從

原创 elasticsearch 集羣搭建步驟

1、創建es用戶 useradd es 。添加密碼 passwd es  2、拷貝ES文件夾到目標文件夾 3、修改權限,賦予ES文件夾可執行權限 chmod -R 744 elasticsearch-0.90.7 4、配置環境變量 vi

原创 大數據存儲和管理數據庫系統

關係型數據庫處理事務時對性能影響較大、需要優化的因素。 通信:應用程序通過ODBC或者JDBC與DBMS進行通信是OLTP事務中的主要開銷。 日誌:需要不斷寫硬盤來保證持久性,代價昂貴。 鎖:修改操作需要加鎖,需要在鎖表中進行寫操作,造成

原创 可搜索的元數據模型

現有的元數據管理是單獨建立一個元數據數據庫,這會帶來一致性和管理方面的問題。所以我們提出一種新的元數據體系結構——Magellan,能夠有效且直接的查詢元數據信息。 主要包括以下幾方面關鍵技術:(1)將inode信息記錄在磁盤上,以有效

原创 基於圖模型並支持查詢語言的新型元數據管理方法

對於數據密集型應用而言,元數據的管理已經成爲系統的瓶頸。一部分原因是由於元數據的抽象仍沿用50年前的接口標準,那時文件系統要處理的數據還小於100MB,而現在則增長了7~9個數量級。現有的元數據抽象已經遠遠不能滿足需求,例如,層次目錄無法

原创 elasticsearch中文分詞(mmseg)——手動添加詞典

elasticsearch本身的中文分詞插件效果都不理想,手動添加詞典可以在一定程度上進行彌補。 經過多次實驗發現,mmseg的分詞機制採用正向最長匹配算法,例如,針對“小時代”這個單詞,其自帶的詞典中沒有包含該詞,故當用戶搜索小時代時,

原创 編程之美——CPU佔用率

System Idle Process佔用了CPU的空閒時間。

原创 推薦系統誤區

轉載自:http://www.aszxqw.com/work/2014/06/01/tuijian-xitong-de-nadianshi.html 回想起來,我也算是國內接觸推薦系統較早的人之一了,最近和人聊天,覺得不少人對推薦系統

原创 JAVA HTTP問題彙總

T:setRequestProperty方法,如果key存在,則覆蓋;不存在,直接添加。 addRequestProperty方法,不管key存在不存在,直接添加 T:當上傳文件類型未知時,設置con

原创 推薦系統——數據分析

推薦系統需要在海量數據中進行高併發的複雜分析查詢,還要能夠快速響應,看上去就像是一個不可能完成的任務。但仔細分析之後,不難發現,推薦引擎結果主要由以下幾個因素決定。 用戶固定屬性:姓名、年齡、職業類型、地域、偏好等 產品固定屬性:品牌、類

原创 數據庫 操作問題彙總

Q:java連接數據庫時出現表名(對象名)失效錯誤 A:數據庫登陸用戶沒有操作表的權限。 Q:java獲取數據庫內容時,出現InputStream is null 錯誤。 A:這是由於SQL的BUG導致的,如果某字段類型爲text,內容