原创 用python打開文件總結
1、參考了該文章,寫的不錯 http://blog.csdn.net/heyijia0327/article/details/42506063, 這裏面介紹了 a、寫入浮點數到txt文件(用with語句) b、從t
原创 python處理類xml文件遇到的坑
首先先確定xml文件有兩個特點容易忽視, 1、xml文件有且只有一個根節點 2、xml文件的標籤的屬性都有引號“” 由於對xml文件不熟,並且對python處理xml文件不熟,故這兩個坑用了將近一天的時間來填,謹記 說
原创 Python列表操作總結
列表操作包含以下函數: 1、cmp(list1, list2):比較兩個列表的元素 2、len(list):列表元素個數 3、max(list):返回列表元素最大值 4、min(list):返回列表元素最小值 5
原创 用word2vec訓練文本摘要的詞向量模型
在記錄這篇博文前,有個聲明: 訓練前疑問: 1、訓練文本時是分過詞的文本,詞與詞之間爲空格。不同類別的文檔要最終寫成一個文本,該文本是訓練集所有文檔的集合。 2、訓練文本摘要的詞向量模型我現在不知道怎麼訓練? 是把訓練
原创 python 編碼與解碼
一般情況下 文件的編碼類型可分爲兩大類,可以type(line)查看: 1、若line爲Unicode類型 Unicode碼要想轉化爲其它編碼(如utf-8碼),可以直接 line.encode(‘utf-8’) 2、若line爲s
原创 如何在centos下更改默認版本的python
問題:centos6.5安裝了一anaconda和anaconda3兩個版本, 這兩個版本的python版本也不一樣,一個是python2.7.10,一個是python3.5.2 那麼如何使環境默認爲python2.7.10呢? 經查看,
原创 Scala入門:類
類和對象是Java、C++等面向對象編程的基礎概念。類是用來創建對象的藍圖。定義好類以後,就可以使用new關鍵字來創建對象 簡單的類 最簡單的類的定義形式是: class Counter{ //這裏定義類的字段和方法 } 然後,
原创 機器學習總結
學習機器學習模型,要從宏觀上來把握該算法。要明白,我們用數據訓練模型目的是要訓練找出該模型參數。那麼有以下幾步可以遵循 首先要找到損失函數 然後轉化爲最優化問題,用梯度下降等方法進行更新 最後模型收斂,得到我們模型的參數
原创 決策樹系列算法總結——決策樹
在機器習算學法中,如果留意的話會一直看到這幾個算法的身影。下面對這三個算法進行一下梳理。 Decision Tree ——>Random Forest ——>DBDT 基本概念: Decision Tree:決策樹 Random Fo
原创 節點重要性和相似性
參考書籍:《網絡科學導論》 參考博文:http://www.cnblogs.com/maybe2030/p/4665847.html 在我們的現實生活中,許多複雜系統都可以建模成一種複雜網絡進行分析,比如常見的電力網絡、航空網絡、交
原创 聲明,博客地址換啦
本人從2017.3.30日起,會在簡書上繼續更新技術博客。歡迎查看! 簡書地址:http://www.jianshu.com/u/4007ac46018d
原创 項目總結文章
快該實習了,下面對去年一 年間在實驗室做的項目做一下總結。這些文章我發在了《簡書》上,還未寫完。下面給出地址鏈接: 輿情分析平臺: http://www.jianshu.com/p/5dfee34c47d7 2016 KDD CUP 大數
原创 決策樹算法系列——GBDT
參考鏈接: http://blog.csdn.net/dark_scope/article/details/24863289 http://blog.csdn.net/w28971023/article/details/8240756
原创 自動評測(ROUGE)及及踩過的坑
最近測試了一個自動摘要的想法,人工看上去還不錯。但是沒有做評估的話還是心裏沒底。後來得知,自動摘要用的是一個叫ROUGE的評測體系,包括ROUGE-1、ROUGE-2…ROUGE-N等系列評測方法。 於是去ROUGE官網申請,得到一個下載