原创 Windows下PySpark 環境搭建篇以及詞頻統計(1)

Windows下pyspark環境搭建以及使用結巴分詞進行詞頻統計 1. 環境搭建 環境搭建的教程已經有很多人寫了,我就不多寫了, 大家自行百度(推薦在Windows下面安裝2.3.1版本的pyspark也是這個版本,避免後面踩坑

原创 解決TensorRT編譯時protobuf模塊編譯錯誤

在編譯TensorRT6.0的時候,可能會遇到protobuf下載導致的錯誤, 錯誤的issue:https://github.com/NVIDIA/TensorRT/issues/78 主要報錯內容: CMakeFiles/th

原创 windows下python安裝scipy庫的方法

在windows下使用pip install scipy 安裝scipy 庫的時候,或者使用pycharm安裝的時候同樣如此,找了很多資料,本文給出解決方法: 1. 下載兩個包 這兩個包在http://www.lfd.uci.ed

原创 IDEA遠程調試hadoop

以前都是在idea裏面寫好了hadoop程序,然後打成jar包,然後在服務器上通過jar 命令進行MR 程序的執行,這樣的方式不利於調試,下面給出在idea上進行遠程調試hadoop的方法。 平臺 hadoop:2.6.5 OS

原创 python 使用uwsgi 開啓多進程服務

通常,我們使用flask起好了一個服務後,希望使用多進程來更高效的使用我們的服務,讓我們的服務能更大的處理併發,這裏記錄使用uwsgi的一個簡單的使用案例。 目錄 flask服務 編寫uwsgi配置文件 uwsgi使用 總結 參

原创 解決TensorRT編譯時protobuf的載編譯的錯誤

在編譯TensorRT6.0的時候,可能會遇到protobuf下載導致的錯誤, 錯誤的issue:https://github.com/NVIDIA/TensorRT/issues/78 主要報錯內容: CMakeFiles/th

原创 Fast Trasnformer 加速BERT推理實踐

Fast Trasnformer 加速BERT推理實踐 上篇BERT做NER的文章很受大家歡迎,其中不乏童鞋詢問我如何加速BERT方法的推理速度,本文就對此進行簡單的描述,主要是基於NVIDIA開源的Fast Transforme

原创 找出數組中兩個數之和爲指定的數

找出數組中兩個數之和爲指定的數 這個是lc中的一個簡單題,原題描述如下: 也就是說給定一個整型的數組,返回兩個數的下標,當然了,這兩個數不是隨意的,這兩個數的和要等於給定target。 下面是我的實現: public cla

原创 卷積神經網絡計算過程中的維度變化

最近在學習pyTorch, 在閱讀pytorch教程的時候,發現有一個簡單的卷積神經網絡,之前搞明白過這個過程,時間太久,都忘的差不多了, 正好寫個筆記記錄總結一下 代碼如下: #! usr/bin/env python3 # -

原创 從BERT遷移到ALBERT

三行代碼從BERT遷移到ALBERT 本文簡單記錄如何將使用BERT fine tuning 的代碼轉化爲使用Albert進行訓練,改動真的不要太多。 我使用的是谷歌官方的Albert https://github.com/goo

原创 UJMP 矩陣庫的基本用法

例子來自於官方文檔,自己做了一點註釋和輸出 @Test public void testUJMP() { //初始化一個4X4的矩陣 Matrix dense = DenseMat

原创 線性迴歸 (linear regression model) 原理與代碼實現

這篇博文是在總結網易公開課上ng的機器學習第二講和周志華老師書上線性迴歸的個人總結。準備做一個系列筆記,希望能堅持。 代碼放在文後 什麼是線性模型 通俗一點來講,就是我們希望用一個線性組合,來擬合我們的數據,實質上是求解

原创 Dirielect process notes

本篇博客旨在翻譯《dirichlet process》下面是個人翻譯結果,0.0版本,不建議看,大神勿噴。 Dirichlet Process 介紹 DP是一個分佈的分佈,一般來說,分佈是我們定義在數字上的一些分類(例如實數,非負

原创 HDFS java API 集合

本篇博客記錄Java API操作HDFS過程 import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import or

原创 在hadoop MapReduce 中寫日誌消息

在hadoop集羣中,在自帶的web界面中,可以顯示在代碼中寫入的一些日誌消息,下面進行簡單的記錄: 程序: package canma.dmml.MRJobWithLog; import org.apache.hadoop