原创 Centos 7下安裝Ambari 2.6.2 + Hdp 2.6.4開源大數據平臺

搭建平臺之前請查看Ambari,Hdp,Centos版本之間是否兼容 https://supportmatrix.hortonworks.com/ 1.機器節點 192.168.12.21 hdp01.hadoop 192.168.

原创 分佈式並行數據庫GreenPlum安裝教程

GreenPlum是一款開源的分佈式數據庫存儲解決方案,其主要關注在數據倉庫和商業智能方面。可以在虛擬化x86服務器上運行無分享(shared-nothing)的大規模並行處理(MPP)架構。 1.機器節點 192.168.12.2

原创 在Ubuntu下安裝Titan圖數據庫

Titan是一個分佈式的圖數據庫,支持橫向擴展,可容納數千億個節點和邊。 Titan支持事務,並且可以支撐上千用戶併發進行復雜圖遍歷操作。在這裏使用Hbase存儲數據,elasticsearch做索引。 Titan包含下面這些特性:

原创 dbutils操作mysql中文亂碼

使用dbutils對mysql進行增加,查詢時出現亂碼問題,都是問號代替中文。 C3P0配置文件如下: <c3p0-config> <default-config> <property name="jdbcUrl">jdbc:my

原创 學習筆記--NLP文本相似度之LCS(最長公共子序列)

最長公共子序列 一個序列S任意刪除若干個字符得到的新序列T,則T叫做S的子序列 兩個序列X和Y的公共子序列中,長度最長的那個,定義爲X和Y的最長公共子序列  例如:      --字符串12455與245576的最長公共子序列爲24

原创 學習筆記--Hbase

Hbase是一個開源的非關係型分佈式數據庫屬於Nosql。數據存在HDFS中也可能存在內存中,可以容錯存儲海量稀疏數據。 Hbase的特性: 高可靠 高併發讀寫 面向列 可伸縮 易構建 行存儲  vs  列存儲 行存儲  優點:寫入

原创 學習筆記--NLP文本相似度之TF-IDF

餘弦計算相似度度量 相似度度量(Similarity),即計算個體間的相似程度,相似度度量的值越小,說明個體間相似度越小,相似度的值越大說明個體差異越大。   文本相似度計算的處理流程是:     (1)找出兩篇文章的關鍵詞;  (2

原创 學習筆記--中文分詞之結巴分詞(二)

結巴中文分詞簡介    1)支持三種分詞模式: 精確模式:將句子最精確的分開,適合文本分析 全模式:句子中所有可以成詞的詞語都掃描出來,速度快,不能解決歧義 搜索引擎模式:在精確的基礎上,對長詞再次切分,提高召回    2)支持繁體分詞

原创 學習筆記--Flume

Apache Flume是一個分佈式、可信任的彈性系統。 功能: 支持在日誌系統中定製各類數據發送方,用於收集數據 Flume提供對數據進行簡單處理,並寫到各種數據接收方的能力 多種數據來源: server  log : tail 

原创 Centos7下安裝Redis過程,以及安裝過程中遇到的問題及解決辦法

安裝redis需要有安裝包,我們可以利用Linux下的wget命令。或者下載到本地通過xftp工具上傳到Centos裏。(本文章通過wget命令) wget /usr/local/src/ http://download.redis.i

原创 Centos7最小安裝化後安裝圖形界面

首先需要對系統進行更新 yum -y upgrade 然後安裝桌面組件包 ,在命令行下輸入下面的命令來安裝 Gnome 包  yum groupinstall "GNOME Desktop" "Graphical Adminis

原创 VM中Centos7擴容

1.首先虛擬機關機 —> 選中要擴容的虛擬機 —>編輯虛擬機設置 —> 硬盤 —> 擴展 —> 調整最大磁盤大小 —> 擴展  本教程是從20G擴展到80G Centos7內部分配  1.查看磁盤容量情況 df -h 2.操作分區

原创 學習筆記--中文分詞(一)

背景 要解決中文分詞準確度問題,是否可以提供一個免費版本的通用分詞程序           --像分詞這種自然語言處理領域的問題,很難徹底完全解決           --每個行業或業務側重不同,分詞工具設計策略也是不一樣的 中文分詞

原创 Centos6.5,Centos7分別關閉selinux和防火牆

Centos6.5關閉selinux:永久有效:修改/etc/sysconfig/selinux將文本中的SELINUX=enforcing,改爲SELINUX=disabled。然後重啓即時有效:setenforce  0      查

原创 在Centos7下安裝Anaconda3

下載Anaconda 方式一:官方網站 方式二:清華大學開源軟件鏡像站 可以下載到本地,然後通過xftp上傳到Contos上 然後bash   Anaconda3-4.4.0-Linux-x86_64.sh 該按enter按,該ye