原创 Java類型與變量問題

使用一個變量要有如下幾步: (1)變量聲明--申請地址名稱,類似c++指針、地址 (2)new分配地址空間,如果沒有提供初始值則默認初始化--類似c++定義(未經定義的任何類型變量都是不可使用的,會提示未初始化) (3)顯式初始化,賦值

原创 Java語法幾點注意

1.類內final字段可以在聲明時給定初始值,也可以在構造函數中初始化 2.接口中可以定義字段,但是要public類型的;接口不能有構造函數 3.abstract定義抽象類,抽象類可以部分實現接口,不能實例化,但是可以子類化 4.靜態方法

原创 TF-IDF自動提取關鍵詞

 TF-統計    IDF逆文檔頻率 算法思想:在一個文章中某個詞的詞頻越大越有可能是關鍵詞,如果一個詞越少見,權重越大。 用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配一個"重要性"權重。最常見的詞("的"、"是"、"在")給

原创 bayes statistics

2015.9.19晚讀貝葉斯統計(權作讀書筆記) 一. 基本概念 1.先驗信息--在抽樣之前有關統計問題的一些信息,一般說來,先驗信息主要來源於經驗和歷史資料。 2.基於總體信息、樣本信息和先驗信息進行的統計推斷稱爲貝葉斯統計學。他與經典

原创 "餘弦相似性"(cosine similiarity)比較相似文章

 基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度 (1)利用分詞器分詞 (2)詞頻統計 (3)組建詞頻向量 (4)對兩向量求解餘弦值 注: 中科大的ICTCLAS分詞系統 摘抄自

原创 什麼是信息熵

 信息理論的鼻祖之一Claude E. Shannon把信息(熵)定義爲離散隨機事件的出現概率。 計算公式 H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=

原创 非常好的理解遺傳算法的例子

轉載自:http://blog.csdn.net/b2b160/article/details/4680853 遺傳算法的手工模擬計算示例 爲更好地理解遺傳算法的運算過程,下面用手工計算來簡單地模擬遺傳算法的各個主要執行步驟。  

原创 spark2.0

從網站上搜尋了些關於spark2.0的新特性: 1. DataFrame引入了schema和off-heap Schema(數據結構信息) : RDD每行的數據,結構都是一樣的。這個結構就存儲在schem

原创 jieba詞性和句法分析樹標註集

句法分析樹標註集: ROOT 原始語句;IP 簡單句;NP 名詞短語;VP 動詞短語;PU 斷句符,通常是句號、問號、感嘆號等標點符號; LCP 方位詞短語;PP 介詞短語;CP 由’的‘構成的修飾性關係的短語;DNP 由’的‘構成的表示

原创 北大、賓州語法樹標記集合

北大標註集 詞性編碼 詞性名稱 註解 Ag 形語素 形容詞語素。形容詞代碼爲a,語素代碼爲g前面置以A a 形容詞 取英語形容詞adjective的第1個字母 ad 副形詞 直接作狀語的形容詞。形容詞代碼a和副詞代碼d並在一起 an

原创 各向同性高斯濾波

1.各向同性高斯核函數 一般的高斯濾波模板選擇5x5,方差1.0, 模板的(0,0)位置在模板中心。 模板與圖像卷積進行圖形濾波、平滑。 計算高斯模板的代碼如下 import math import numpy as np def te

原创 語料庫知識

知名中文語料庫: 1. 中央研究院近代漢語標記語料:http://www.sinica.edu.tw/Early_Mandarin/ (臺灣的繁體,在NLTK中有) 2.中央研究院漢籍電子文獻 http://www.sinica.edu.

原创 矩陣卷積

以在圖像處理中的應用爲例:假設矩陣A、B,A代表源圖像,B代表卷積模板(二維卷積) 函數給出的形式;     計算過程,將卷積模板旋轉180度,然後將模板依次從上到下,從左往右滑動,計算在模板與原圖像交集元素的乘積和,作爲卷積以後的數值。

原创 梯度下降算法

https://mp.weixin.qq.com/s/5utbOLwOy2RwyrI1OfJjDQ

原创 Hbase筆記(不全面)

因爲看的時候不是在一個電腦上看的,所以筆記沒有整理全面。 create 'mytable', 'cf'  --表名,列族名 put 'mytable', 'first','cf:message','hello hbase'  --表名,行