原创 gSpan算法研究

摘要 隨着信息技術的不斷髮展,人類可以很容易地收集和儲存大量的數據,然而,如何在海量的數據中提取對用戶有用的信息逐漸地成爲巨大挑戰。爲了應對這種挑戰,數據挖掘技術應運而生,成爲了最近一段時期數據科學的和人工智能領域內的研究熱點。數據集中的

原创 linux上的mysql安裝--yum本地安裝方式

一、Linux服務器yum安裝(CentOS6.3 64位) 所有在服務器上執行的命令,都在 # 後面 1、命令安裝mysql # yum install mysql mysql-server mysql-devel -y 最後提示 Co

原创 hadoop2.x 常用端口及定義方法

一 常用端口號1 HDFS2 YARN3 HBase4 Hive5 ZooKeeper二 Web UIHTTP服務1 對於存在 Web UIHTTP服務的所有 hadoop daemon 有如下 url2 特定的 Daemon 又有特定的

原创 操作系統的內存分配策略

首次適應算法(first-fit):    從空閒分區表的第一個表目起查找該表,把最先能夠滿足要求的空閒區分配給作業,這種方法的目的在於減少查找時間。    最佳適應算法(best-fit):從全部空閒區中找出能滿足作業要求的,且大小最小

原创 Python爬蟲之一:抓取貓眼電影TOP100

運行平臺: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome瀏覽器1. 抓取單頁內容2. 正則表達式提取有用信息3. 保存信息4.下載TOP100所有電影信息5.多線程

原创 Pregel模型

簡介在Hadoop興起之後,google又發佈了三篇研究論文,分別闡述了了Caffeine、Pregel、Dremel三種技術,這三種技術也被成爲google的新“三駕馬車”,其中的Pregel是google提出的用於大規模分佈式圖計算框

原创 elasticsearch+hadoop項目

系統核心架構設計 1、數據首先存入HDFS,可以通過Spark SQL直接導入到ES中, HDFS中的數據量與ES中數據量大致相當。2、Spark SQL可以直接通過建立Dataframe或者臨時表連接ES,達到搜尋優化、減少數據量和篩選

原创 計算機領域CCF推薦會議列表

CCF推薦國際學術會議 類別如下計算機系統與高性能計算,計算機網絡,網絡與信息安全,軟件工程,系統軟件與程序設計語言,數據庫、數據挖掘與內容檢索,計算機科學理論,計算機圖形學與多媒體,人工智能與模式識別,人機交互與普適計算,前沿、交叉

原创 Mac android studio 環境搭建和真機運行

Android Studio安裝Android SDK配置模擬器安裝開發屬於自己的應用如何調試應用一些必備技巧你需要準備什麼一臺MAC機器Android版本大於等於4.0的測試設備(沒有可以用模擬器)已熟悉JAVA語言準備好了嗎?讓我們一

原创 java之包裝類

Java中的基本類型功能簡單,不具備對象的特性,爲了使基本類型具備對象的特性,所以出現了包裝類,就可以像操作對象一樣操作基本類型數據。一、基本類型對應的包裝類基本類型                  包裝類型byte         

原创 HDP 2.5相關問題

how to choose which version of spark be used in HDP 2.5?There are two versions of Spark in HDP 2.5, Spark 1.6 and Spark

原创 HBase介紹、搭建、環境、安裝部署

1、搭建環境部署節點操作系統爲CentOS,防火牆和SElinux禁用,創建了一個shiyanlou用戶並在系統根目錄下創建/app目錄,用於存放Hadoop等組件運行包。因爲該目錄用於安裝hadoop等組件程序,用戶對shiyanlou

原创 Pig安裝常見問題

Terminal initialization failed; falling back to unsupportedLogging initialized using configuration in jar:file:/hive/ap

原创 hive命令出現問題

一,問題描述:    登錄到hive數據倉庫後,輸入一些命令,例如(show databases ,show tables),會報出如下錯誤:Failed with exception Java.io.IOException:java.

原创 spark graphx從txt文件中讀數據構建圖

程序功能:導入頂點以及邊的數據,生成邊RDD和頂點RDD,構建圖 import org.apache.spark._ import org.apache.spark.graphx._ // To make some of the exa