原创 python 集合 set

python的set和其他語言類似, 是一個無序不重複元素集, 基本功能包括關係測試和消除重複元素. sets 支持 x in set, len(set),和 for x in set。 作爲一個無序的集合,sets不記錄元素位置或者插入

原创 中文分詞軟件包的使用

  中文分詞 (Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作爲自然分界符的,而中

原创 Synchornized使用及原理

Synchornized 方法 當一個線程試圖訪問同步代碼塊或對象的方法時,它首先必須得到鎖,退出或拋出異常時必須釋放鎖。Java中的每一個對象都可以作爲鎖,具體表現爲: 1. 對於普通同步方法,鎖是當前實例對象 2. 對於同步方

原创 多線程基本概念理解

初識多線程 現代操作系統在運行一個程序時,會爲其創建一個進程。例如,啓動一個Java程序,操作系統就會創建一個Java進程。現代操作系統調度的最小單元是線程,也叫輕量級進程(LightWeight Process),在一個進程裏可以創建多

原创 最大熵模型(Maximum Entropy Model, ME)理解

信息論的創始人Shannon認爲,“信息是指人們對事物理解的不確定性的降低或消除”,他稱這種不確定的程度爲信息熵。 可以這樣理解,熵就是隨機事件的不確定性,熵越小信息就越明確,而越不確定的事情熵就越大。比如,一個正常骰子6個面(1,2,3

原创 線程中斷理解

無法中斷的線程 package objective1.action2; public class InterruptHandler { public static void main(String[] args) {

原创 R語言 tm包的使用

#清除內存空間 rm(list=ls()) #導入tm包 library(tm) library(SnowballC) #查看tm包的文檔 #vignette("tm") ##1.Data Import 導入自帶的路透社的20篇x

原创 Stanford Word Segmenter使用

Stanford Word Segmenter是斯坦福大學NLP group研發的一套基於CRF的開源中文分詞系統,採用CRF(Conditional Random Fields)算法。下面將下載Stangford Word Segmen

原创 樸素貝葉斯模型(Naive Bayes Model,NB)理解

1. Bayes 定理 P(A,B)=P(A|B)P(B);              P(A,B)=P(B|A)P(A);  P(A|B)=P(B|A)P(A)/P(B);    貝葉斯定理變形 2. 概率圖模型 2.1 定

原创 numpy包的安裝

1,下載python 下載地址: https://www.python.org/downloads/windows/    2,配置python環境變量 在電腦的系統屬性的系統變量path中添加python的安裝路徑,如在pat

原创 Python 中的range(),arange()函數

Python 中的range,以及numpy包中的arange函數 range()函數 函數說明: range(start, stop[, step]) -> range object,根據start與stop指定的範圍以及step設