原创 hive任務RMContainerAllocator: REDUCE capability required is more than the supported max container

hive任務執行時:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask Hadoop job informat

原创 Python3讀取Hbase包hbase-thrift異常處理

python連接hbase需要用到hbase-thirft類庫,但是hbase-thirft只在python2下能正常使用,如果在python3下,會報錯, 主要有一下幾個錯誤 :    except IOError, io:    in

原创 Python連接Kafka問題彙總

1、NoBrokersAvailable: NoBrokersAvailable-Kafka Error 解決方法:連接時指定版本 producer = KafkaProducer(bootstrap_servers=['localho

原创 在使用pandas 0.23.4對日期進行分組排序時報錯

date_df["rank_num"] = date_df.groupby("issuer_id").report_date.agg("rank", **{"ascending": 1, "method": "min"}) Fil

原创 【轉】推薦系統算法總結(一)

來源:https://blog.csdn.net/eouaq448466/article/details/54772890 推薦算法具有非常多的應用場景和商業價值,因此對推薦算法值得好好研究。推薦算法種類很多,但是目前應用最廣泛的應該是協

原创 Impala(二)Impala負載均衡

如有不妥之處,歡迎隨時留言溝通交流,謝謝~ Impala分爲是三個組件,statestored/catalogd和impalad,其中statestored和catalogd是單點的,沒有高可用的需求,因爲這兩個實例是無狀態的,本身不存儲

原创 Impala(三): Python Impala Encountered: STRING LITERAL

記錄一個坑,python連Impala,插入數據到Kudu,會有特殊字符問題,冒號,涉及到時間格式與ip地址等場景 >>> >>>from impala.dbapi import connect >>> >>>host='xx.xx.x

原创 關鍵詞(一)jieba詞性標註與分詞結果不一致

1、 先描述下現象 >>> aa='北京時間月日晚劉強東的刑辯律師在接受澎湃新聞記者電話採訪時表示劉強東涉嫌 強姦一案中的指控與證據是有出入的一旦調查結束證據將會披露給公衆證明他是無罪的' =======過濾詞性,能識別“劉強東” >

原创 Impala(四):Python3.6連接Impala的No module named _ssl

1、問題描述: Python3.6連接Impala的No module named _ssl Python2是沒有這個問題的 >>> from impala.dbapi import connect Traceback (most re

原创 問答QA(一)綜述

聲明:本文是綜合網上問答系統介紹,做的總結,如有侵權,請聯繫處理,謝謝。 一、問答系統架構     1.1、問題分析模塊        負責對用戶的提問進行處理;生成查詢關鍵詞(提問關鍵詞,擴展關鍵詞,...);確定提問答案類型(PER,

原创 Impala(一):Impala+Kudu+HDFS教程

本文部分引用其它博客,部分原創,如有不妥之處,歡迎隨時留言溝通交流,謝謝~ 1、Impala語法 增刪改查 2、Impala常用函數 2.1 、字符串函數 參考鏈接: https://blog.csdn.net/qq_24699959/a

原创 BERT輕量化探索—模型剪枝(BERT Pruning)—Rasa維度剪枝

      由於BERT參數衆多,模型龐大,訓練與推理速度較慢,在一些實時性要求較高應用場景無法滿足需求,最近開始探索BERT輕量化部署 BERT輕量化的方式: 低精度量化。在模型訓練和推理中使用低精度(FP16甚至INT8、二值網絡)表

原创 BERT輕量化探索—模型裁剪(BERT Pruning)—層數裁剪

繼BERT維度剪枝之後,嘗試了BERT層數暴力裁剪,直接剪掉若干層。 試驗結果:          結論:訓練提升40%左右、效果下降1.2%,推斷速度提升50%。 代碼參考 : 最簡單的模型輕量化方法:20行代碼爲BERT剪枝   h

原创 pandas read_csv 錯誤: Buffer overflow caught - possible malformed input file.

一、錯誤現象 File "/root/anaconda2/lib/python2.7/site-packages/pandas/io/parsers.py", line 1213, in read data = self._

原创 問答QA(二)基於BERT的知識庫問答實戰—NLPCC2017KBQA

GitHub:  一、問題描述 本篇知識問答實戰來源NLPCC2017的Task5:Open Domain Question Answering;其包含 14,609 個問答對的訓練集和包含 9870 個問答對的測試集。並提供一個知識庫,