原创 文本挖掘技術筆記

我第一次接觸自然語言處理還是研一的時候,當時我讀的是那本經典書籍《數學之美》,之後我就對NLP/文本挖掘/IR方向興趣比較大,所以也一直想畢業後去搜索相關公司。但是考慮到自己的基礎水平,遲遲沒有深入研究,其實主要原因是我一直在補計算機

原创 數學之美 七 信息論在信息處理中的應用

摘要     信息熵正是對不確定性的衡量,因此信息熵可以直接用於衡量統計語言模型的好壞。賈里尼克從信息熵出發,定義了一個稱爲語言模型複雜度(Perplexity)的概念,直接衡量語言模型的好壞。一個模型的複雜度越小,模型越好。 我們

原创 python2.7與python3中print的一點不同之處

headfirst python。實驗的時候 print("\t",end='')打印製表符不換行, 出錯。print在python3.0中與python 2.x中是不同的在python 2.7中打印輸出不換行可以這樣寫 :i = 10w

原创 stanford parser使用工具

2.如果要String[] sent從文本輸入: eclipse > run > run configuration > arguments > program arguments: 輸入: edu/stanford/nlp

原创 DataInputStream的過期方法readLine()

http://blog.sina.com.cn/s/blog_62cd5a980100lp0t.html 在JDK1.1以後DataInputStream的readLine方法就過期了,所以當我們在電泳的時候會有警告: 比如: U

原创 默認參數python

先定義一個函數,傳入一個list,添加一個END再返回: def add_end(L=[]): L.append('END') return L 當你正常調用時,結果似乎不錯: >>> add_end([1, 2,

原创 Java中Array與ArrayList的主要區別(

1)精闢闡述: 可以將 ArrayList想象成一種“會自動擴增容量的Array”。2)Array([]):最高效;但是其容量固定且無法動態改變;     ArrayList:  容量可動態增長;但犧牲效率;3)建議: 基於效率和類型檢驗

原创 Parcel

  感覺就是把一堆數據打包,然後傳輸,然後再分解出來。 public interface Parcelable 如果某個類實現了這個接口,那麼它的對象實例可以寫入到Parcel中,並且能夠從中恢復,並且這個類必須要有一個static的fi

原创 javaBean【02】javaBean與表單應用

對於javaBean,我們說就是一個*.java文件。對於javaBean的應用必須結合表單才能體現。我們來以一個實例學習javaBean的應用。 biaodan.html  <html> <head> <title>WEB開發</ti

原创 社會計算:用戶在線行爲分析與挖掘

在線行爲包括搜索、網購、標註、瀏覽、評論以及社交,分析方法涉及概率統計、數據挖掘、社會網絡分析。研究內容包括搜索意圖的發現、熱點話題的偵測、在線購物

原创 財哥面京東dm的經歷【幫財哥發的】

    關於面京東,感觸僅僅有一個,虐的快吐血了。首先說京東分四個板塊,有京東商城、京東金融、京東剛收購的拍拍和海外事業部。我這個職位主要是在金融部數據組做數據挖掘和機器學習,還有推薦系統。面試是在週一,本身也沒打算正經去面試

原创 Android開發筆記(成長軌跡)

1.控制檯輸出:called unimplemented OpenGL ES API 調用了未實現的OpenGL ES API函數,一般由於導入的第三方庫如地圖庫,裏面有用到OpenGL,但是模擬器的硬件默認是沒有這個的,所以需要我

原创 大數據分析與社會計算

美國將大數據看做是“未來的石油”,將大數據作爲戰略,大數據 有四方面的特性:數據量volume,時效性velocity,多樣性variety和可疑性veracity 聯合國在09年開始發起一個“全球脈動“的行動計劃,旨在用大數據對全球經濟

原创 java集合詳細解釋和線性安全

http://www.cnblogs.com/fjsnail/p/3475471.html java集合詳細解釋 http://blog.sina.com.cn/s/blog_646c780d0101isyu.html http://ww

原创 sublime +python 遇到的問題

中文編碼問題是用中文的程序員經常頭大的問題,在python下也是如此,那麼應該怎麼理解和解決python的編碼問題呢? 我們要知道python內部使用的是unicode編碼,而外部卻要面對千奇百怪的各種編碼,比如作爲中國程序經常要面對