原创 【Sqoop】Export data into RDBMS using Sqoop 及其調優

【原文鏈接】https://hadoopjournal.wordpress.com/2017/08/15/export-data-using-sqoop/   We can export data from HDFS into an RD

原创 【NLP】Python中文文本聚類

1. 準備需要進行聚類的文本,這裏選取了10篇微博。 import os path = 'E:/work/@@@@/開發事宜/大數據平臺/5. 標籤設計/文本測試數據/微博/' titles = [] files = [] for fi

原创 【NLP】Python英文文本聚類

【原文鏈接】http://brandonrose.org/clustering In this guide, I will explain how to cluster a set of documents using Python. M

原创 【NLP】Jieba中文分詞

【GitHub地址】https://github.com/fxsjy/jieba 特點 支持三種分詞模式: 精確模式,試圖將句子最精確地切開,適合文本分析; 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義

原创 【Python】解決matplotlib圖例中文亂碼問題——win10版本

1. 找到matplotlib 配置文件: import matplotlib print(matplotlib.matplotlib_fname()) E:\software\python\anaconda\lib\site-packa

原创 【機器學習】SciPy 系統/層次聚類和樹狀圖教程

【原文鏈接】https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/This is a tutorial on

原创 【NLP】BosonNLP Python SDK 使用入門

打開Anaconda Navigator,create new environment,選擇Python 3.6和R。如果您使用 Python 語言,建議通過 SDK 的方式使用 BosonNLP。BosonNLP Python SDK

原创 【hive】String to Date 轉化大全

原文鏈接:http://bigdataprogrammers.com/string-date-conversion-hive/Input column name: dt (String).Replace dt with your colu

原创 【maven】使用eclipse自帶的Maven插件,修改repository的默認位置

【原文鏈接】https://blog.csdn.net/qq_20565303/article/details/60480247   1、查看相關是否可建Maven工程: 將eclipse打開後新建工程在other裏面可以找到maven

原创 【Flume】通過Hue提交Oozie SSH Action用命令啓動Flume腳本報錯Unable to find java executable.

【背景】在配置好Flume後,在控制檯通過flume-ng agent --conf /* --conf-file /* --name agent Dflume.root.logger=INFO,console命令啓動Flume Agen

原创 【Oozie】SSH Workflow報錯之Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

【問題】添加workflow,拖拽一個ssh,user and host填寫USER@HOST,ssh command填寫一個最簡單的ll命令,保存,submit,報錯: Caused by: java.io.IOException: N

原创 【Oozie】解決通過Hue界面提交Oozie Workflow和Coordinator時區問題的三個步驟

【問題一】Hue界面中顯示提交Coordinator和Workflow的時間和真正的時間不匹配 【背景】提交Coordinator的時候是下午五點,但是界面上顯示的是凌晨1點,判斷是時區問題 【解決】打開Cloudera Manager的

原创 【Oozie】CDH是如何通過Hue提交Oozie定時任務的?

【原文鏈接】https://www.cnblogs.com/mr-ivan/p/6593550.html   提交oozie定時作業  1、進入hue界面,點擊workflows工作流,編輯workflows。   2、點擊create

原创 【MySQL】Error “No package mysql-server available” while Installing mysql

【原文鏈接】https://www.techietown.info/2017/07/error-no-package-mysql-server-available-while-installing-mysql-server/ Mysql 

原创 【CDH】Error: JAVA_HOME is not set and could not be found.

錯誤一: hdfs dfs -mkdir -p /flume/mysql Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x 這