原创 shell學習--變量

其實用linux時間已經不短了,已經有一年多了,但是確實沒有認真的學習過shell,慚愧!下面我就參照這位大神去學習下shell http://cn.linux.vbird.org/linux_basic/0340bashshe

原创 2017年想要學習的技術

2016年已經過去了,仍然還有許多事情沒有完成。記錄下來,以後閒了在學。勿忘初心,方得始終! 1、NLP領域經典的算法 2、spark實戰 3、微信小程序開發 4、pyQt技術 5、網站的搭建

原创 在ubuntu 16.04上搭建spark平臺

參考鏈接:http://dblab.xmu.edu.cn/blog/1155/ 搭建環境 Ubuntu14.04以上 Hadoop 2.6.0以上 Java JDK 1.7以上 Spark 2.0.0

原创 處理數據(文本)時遇到過的坑

訓練詞向量時,本來就是準備好格式一定訓練文本,然後調用gensim開始訓練。但是訓練過程中出現了這樣的幺蛾子,編碼坑 UnicodeDecodeError: 'utf8' codec can't decode bytes in p

原创 shell編程時的坑

定義變量 定義變量時,變量名不加美元符號($),如: variableName=”value” 注意,變量名和等號之間不能有空格 變量名的命名須遵循如下規則: 1、 首個字符必須爲字母(a-z,A-Z)。 2、 中

原创 ubuntu16.04下安裝xgboost

windows下安裝xgboost簡直要把人逼瘋,於是轉戰的ubuntu下來安裝。我的環境是ubuntu16.04。 安裝步驟: sudo -H pip install --pre xgboost 時間稍微長一些,耐心等待。最後

原创 寫代碼訓練詞向量時踩過的坑

在用python的第三方包gensim訓練詞向量時,踩到了如下的坑,記錄下來: # -*- coding: utf-8 -*- from gensim.models import word2vec #sentences=

原创 centos 不小心把yum刪除了的拯救辦法

今天遇到一個問題,centos6.8系統上的yum命令被刪除,導致沒有了yum , 找了許多辦法都沒有解決,最後通過如下兩個文檔解決了 1、參考一 http://blog.sina.com.cn/s/blog_6437549

原创 shell常用命令解釋--echo

參考 http://c.biancheng.net/cpp/view/7003.html echo是Shell的一個內部指令,用於在屏幕上打印出指定的字符串。命令格式: echo arg 您可以使用echo實現更復雜的輸出格式

原创 Spark獨立應用程序編程

上文搭建了spark平臺,本文通過一個簡單的應用程序 SimpleApp 來演示如何通過 Spark API 編寫一個獨立應用程序。使用 Scala 編寫的程序需要使用 sbt 進行編譯打包。相應的,Java 程序使用 Maven

原创 智能醫療---醫療實體識別

跳進NLP這個坑之後,我一直想用NLP 技術做些實用的創新。比如智能醫療中的醫療問答(或稱爲醫療決策系統)。你可以想像一下未來的場景,小病什麼的,你不用再去醫院,你問下你的“私人助手”就可以得到答案。學醫的孩子也幸福了,不用在上很

原创 搭建網站之路

我是在申請一個阿里雲服務器之後纔想起搭建網站的,哈哈,我的驅動力就是好玩。下面說下我搭建人生中中第一個網站(博客)的心裏路程 1、首先申請一個服務器   我申請的是阿里雲服務器,centos6.6的操作系統,1G內存,20G的磁盤容量,搭

原创 如何寫一個propose

場景設定:假如你要向你的導師、領導等提出一個新的想法時,那麼你不能僅僅的憑嘴去跟他(她),這顯得很蒼白無力。怎麼辦呢?這是你需要向他提交一個propose。 propose的中文翻譯稱作“提議”,它其實包括幾個部分,分別是介紹(I

原创 對PGM的一些理解

PGM全稱叫概率圖模型,沒學之前,感覺沒什麼用。現在學習了,感覺用處太大了。下面就我的一些學習感悟及學習路程記錄下來,難免會有些錯誤的思想,歡迎走過路過的朋友多多指正。 2016.12.23 我是學習PRML這本經典的教材

原创 利用Word2Vec訓練詞向量過程

先明確一點,選用不同的詞向量作爲模型的初始值,效果的差異非常大!那麼怎麼產生一個好的詞向量呢?參看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F 1、英文