台部落方兵兵

北大的分詞工具（1）多領域分詞。新聞、科研、網絡、醫藥、旅遊、金融、工業。（2）更高的分詞準確率（3）支持用戶自訓練模型，支持用戶使用全新的標註數據進行訓練。如果PyPI官方源下載速度不理想建議使用鏡像源，比如初次安裝：

2020-06-22 11:14:58

用mysql作爲hive的元數據存儲數據庫，要注意，在mysql中hive的存儲路徑問題 hive> select * from qq; 報錯： FAILED: SemanticException Unable to deter

2020-06-22 11:14:57

1）cache cache是爲了追求計算的速度 spark中計算任務在內存中，但是結果是存儲在磁盤中的，所以首次運行會慢，之後會拿磁盤中的計算結果，所以後面會快很多通過對結果的RDD分佈式數據集進行cache，將計算結果緩存在內

2020-05-30 20:04:57

SnowNLP簡介 SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啓發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和TextBlo

2020-02-22 22:01:00

TextBlob TextBlob是用於處理文本數據的Python（2和3）庫。它提供了一個一致的API，可用於深入研究普通自然語言處理（NLP）任務，例如詞性標記，名詞短語提取，情感分析等。主要用於英文的分詞，不適用於中文安

2020-02-22 22:01:00

HanLP是一系列模型與算法組成的NLP工具包，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。安裝hanlp step1:下載jpype1.whl, https:

2020-02-22 22:01:00

NLP自然語言處理 NLP（Natural Language Processing，NLP）基本定義（1）定義：計算機科學、人工智能、語言學。處理計算機和人類自然語言之間的相互作用關係。信息自動提取、自動摘要、智能問答、智能推

2020-02-22 22:01:00

“結巴”中文分詞：做最好的 Python 中文分詞組件安裝jieba 全自動安裝：easy_install jieba 或者 pip install jieba / pip3 install jieba 半自動安裝：先下載 ht

2020-02-22 22:01:00

java.lang.OutOfMemoryError: Java heap space -XX:OnOutOfMemoryError=“kill %p” Executing /bin/sh -c “kill 54710”… ya

2019-08-09 01:31:17

這個錯誤我的原因是因爲沒有關閉selinux 1、沒有關閉selinux vi /etc/sysconfig/selinux SELINUX=enforcing 改爲 SELINUX=disabled 重啓服務reboot 2、文

2019-08-01 01:25:11

在idea中用cdh中個組件開發時如果依賴找不到下載失敗，右側會報波浪線警告，在項目依賴文件夾中（文件夾在maven項目的conf/setting.xml中配置的F:\repository）會找到.lastUpdated後綴的文

2019-07-30 05:01:28

1、未加載到主類這個問題有很多原因，我的原因是項目缺少.iml文件刪除.idea文件夾重新編譯build 還有可能情況是項目的scala文件夾是否設置爲source源 2、winutils.exe導致的報錯在window下本

2019-07-30 05:01:28

安裝cdh的過程太心酸了，各種坑被我遇到了，記錄下 1、下載對應操作系統版本的CDH CentOS6系統就下載CDH el6版本的 CentOS7系統就下載CDH el7版本的這個在cloudera-manager 的web頁面

2019-07-17 00:14:10

我出現這種情況的原因是因爲幾臺節點的時間沒有同步導致的。使用ntp配置時間同步即可解決 hbase(main):001:0> list TABLE ERROR: org.apache.hadoop.hbase.PleaseHol

2019-07-08 01:39:52

在SparkStreaming中作爲數據源的Kafka怎樣接收多主題發送的數據呢？使用StreamingContext.union方法將多個streaming流合併處理 def main(args: Array[String])

2019-07-01 01:32:08