原创 用python打開文件總結

1、參考了該文章,寫的不錯 http://blog.csdn.net/heyijia0327/article/details/42506063, 這裏面介紹了 a、寫入浮點數到txt文件(用with語句) b、從t

原创 python處理類xml文件遇到的坑

首先先確定xml文件有兩個特點容易忽視, 1、xml文件有且只有一個根節點 2、xml文件的標籤的屬性都有引號“” 由於對xml文件不熟,並且對python處理xml文件不熟,故這兩個坑用了將近一天的時間來填,謹記 說

原创 Python列表操作總結

列表操作包含以下函數: 1、cmp(list1, list2):比較兩個列表的元素 2、len(list):列表元素個數 3、max(list):返回列表元素最大值 4、min(list):返回列表元素最小值 5

原创 用word2vec訓練文本摘要的詞向量模型

在記錄這篇博文前,有個聲明: 訓練前疑問: 1、訓練文本時是分過詞的文本,詞與詞之間爲空格。不同類別的文檔要最終寫成一個文本,該文本是訓練集所有文檔的集合。 2、訓練文本摘要的詞向量模型我現在不知道怎麼訓練? 是把訓練

原创 python 編碼與解碼

一般情況下 文件的編碼類型可分爲兩大類,可以type(line)查看: 1、若line爲Unicode類型 Unicode碼要想轉化爲其它編碼(如utf-8碼),可以直接 line.encode(‘utf-8’) 2、若line爲s

原创 如何在centos下更改默認版本的python

問題:centos6.5安裝了一anaconda和anaconda3兩個版本, 這兩個版本的python版本也不一樣,一個是python2.7.10,一個是python3.5.2 那麼如何使環境默認爲python2.7.10呢? 經查看,

原创 Scala入門:類

類和對象是Java、C++等面向對象編程的基礎概念。類是用來創建對象的藍圖。定義好類以後,就可以使用new關鍵字來創建對象 簡單的類 最簡單的類的定義形式是: class Counter{ //這裏定義類的字段和方法 } 然後,

原创 機器學習總結

學習機器學習模型,要從宏觀上來把握該算法。要明白,我們用數據訓練模型目的是要訓練找出該模型參數。那麼有以下幾步可以遵循 首先要找到損失函數 然後轉化爲最優化問題,用梯度下降等方法進行更新 最後模型收斂,得到我們模型的參數

原创 決策樹系列算法總結——決策樹

在機器習算學法中,如果留意的話會一直看到這幾個算法的身影。下面對這三個算法進行一下梳理。 Decision Tree ——>Random Forest ——>DBDT 基本概念: Decision Tree:決策樹 Random Fo

原创 節點重要性和相似性

參考書籍:《網絡科學導論》 參考博文:http://www.cnblogs.com/maybe2030/p/4665847.html  在我們的現實生活中,許多複雜系統都可以建模成一種複雜網絡進行分析,比如常見的電力網絡、航空網絡、交

原创 聲明,博客地址換啦

本人從2017.3.30日起,會在簡書上繼續更新技術博客。歡迎查看! 簡書地址:http://www.jianshu.com/u/4007ac46018d

原创 項目總結文章

快該實習了,下面對去年一 年間在實驗室做的項目做一下總結。這些文章我發在了《簡書》上,還未寫完。下面給出地址鏈接: 輿情分析平臺: http://www.jianshu.com/p/5dfee34c47d7 2016 KDD CUP 大數

原创 決策樹算法系列——GBDT

參考鏈接: http://blog.csdn.net/dark_scope/article/details/24863289 http://blog.csdn.net/w28971023/article/details/8240756

原创 自動評測(ROUGE)及及踩過的坑

最近測試了一個自動摘要的想法,人工看上去還不錯。但是沒有做評估的話還是心裏沒底。後來得知,自動摘要用的是一個叫ROUGE的評測體系,包括ROUGE-1、ROUGE-2…ROUGE-N等系列評測方法。 於是去ROUGE官網申請,得到一個下載