原创 nlp分詞之pkuseg

北大的分詞工具 (1)多領域分詞。新聞、科研、網絡、醫藥、旅遊、金融、工業。 (2)更高的分詞準確率 (3)支持用戶自訓練模型,支持用戶使用全新的標註數據進行訓練。 如果PyPI官方源下載速度不理想建議使用鏡像源,比如 初次安裝:

原创 hive存儲:FAILED: SemanticException Unable to determine if hdfs://nameservice1/

用mysql作爲hive的元數據存儲數據庫,要注意,在mysql中hive的存儲路徑問題 hive> select * from qq; 報錯: FAILED: SemanticException Unable to deter

原创 spark中cache和checkpoint使用

1)cache cache是爲了追求計算的速度 spark中計算任務在內存中,但是結果是存儲在磁盤中的,所以首次運行會慢,之後會拿磁盤中的計算結果,所以後面會快很多 通過對結果的RDD分佈式數據集進行cache,將計算結果緩存在內

原创 nlp分詞之SnowNLP

SnowNLP簡介 SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啓發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlo

原创 nlp分詞之TextBlob

TextBlob TextBlob是用於處理文本數據的Python(2和3)庫。它提供了一個一致的API,可用於深入研究普通自然語言處理(NLP)任務,例如詞性標記,名詞短語提取,情感分析等。 主要用於英文的分詞,不適用於中文 安

原创 nlp之HanLP

HanLP是一系列模型與算法組成的NLP工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。 安裝hanlp step1:下載jpype1.whl, https:

原创 nlp入門簡介

NLP自然語言處理 NLP(Natural Language Processing,NLP)基本定義 (1)定義:計算機科學、人工智能、語言學。處理計算機和人類自然語言之間的相互作用關係。 信息自動提取、自動摘要、智能問答、智能推

原创 nlp之jieba分詞

“結巴”中文分詞:做最好的 Python 中文分詞組件 安裝jieba 全自動安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自動安裝:先下載 ht

原创 spark-sumit提交任務到yarn運行報OutofMemory內存溢出

java.lang.OutOfMemoryError: Java heap space -XX:OnOutOfMemoryError=“kill %p” Executing /bin/sh -c “kill 54710”… ya

原创 centos7中httpd啓動後訪問/var/www/html/下的文件報403,You don't have permission to access /cdh/ on this server.

這個錯誤我的原因是因爲沒有關閉selinux 1、沒有關閉selinux vi /etc/sysconfig/selinux SELINUX=enforcing 改爲 SELINUX=disabled 重啓服務reboot 2、文

原创 cdh採坑集錦之cdh相關組件依賴idea下載失敗處理

在idea中用cdh中個組件開發時如果依賴找不到下載失敗,右側會報波浪線警告, 在項目依賴文件夾中(文件夾在maven項目的conf/setting.xml中配置的F:\repository)會找到.lastUpdated後綴的文

原创 idea中運行spark項目遇到的坑

1、未加載到主類 這個問題有很多原因,我的原因是項目缺少.iml文件 刪除.idea文件夾重新編譯build 還有可能情況是項目的scala文件夾是否設置爲source源 2、winutils.exe導致的報錯 在window下本

原创 cdh5.14安裝採坑集錦

安裝cdh的過程太心酸了,各種坑被我遇到了,記錄下 1、下載對應操作系統版本的CDH CentOS6系統就下載CDH el6版本的 CentOS7系統就下載CDH el7版本的 這個在cloudera-manager 的web頁面

原创 hbase採坑集錦之ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

我出現這種情況的原因是因爲幾臺節點的時間沒有同步導致的。 使用ntp配置時間同步即可解決 hbase(main):001:0> list TABLE ERROR: org.apache.hadoop.hbase.PleaseHol

原创 spark採坑集錦之用kafka作爲DStream數據源,並行度問題

在SparkStreaming中作爲數據源的Kafka怎樣接收多主題發送的數據呢? 使用StreamingContext.union方法將多個streaming流合併處理 def main(args: Array[String])