原创 Hive-行轉列和列轉行

Hive 行轉列和列轉行 表1:cityInfo cityname regionname 上海 四川北路 上海 虹梅路 上海 音樂學院 上海 徐家彙 上海 陸家嘴 上海 古北 北京 東四

原创 Java-矩陣運算

java 矩陣運算 在學習機器學習算法時,發現運用java 來實現有些算法代碼時,會有很大困難,其中有一點就是 java 本身並沒有矩陣運算的 api,所以進行要實現矩陣運算就尤其複雜,在知乎上得知 java 有一個非常強大的矩陣

原创 機器學習系列之梯度下降法

梯度下降法 梯度下降法,又叫最速下降法,是一種最優化算法。它用負梯度方向爲搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。 梯度下降法的計算過程就是沿着梯度下降的方向求解極小值。(亦可以沿着梯度上升的方向求解極大值)。它

原创 機器學習系列之樸素貝葉斯算法

樸素貝葉斯算法 貝葉斯定理想必大家很早就已經瞭解,樸素貝葉斯算法就是基於貝葉斯定理提出的一種監督機器學習算法。爲什麼叫“樸素”了?那是因爲樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。給定類變量 y (這裏

原创 Java-動態代理模式

動態代理模式 代理模式爲另一個對象提供一個替身或佔位符以控制對這個對象的訪問。—《 Head First設計模式》 換句話說,即客戶不直接操控原對象,而是通過代理對象間接地操控原對象。打個比方,現在房產中介很火,找房子都會經過中

原创 doc2vct算法實現

本篇文章主要是實現Python 自然語言處理包 gensim 中用於長文本向量建模的 doc2vec算法。 示例代碼如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- impo

原创 利用編輯距離計算文本相似性

文本相似性 編輯距離 什麼是編輯距離? 看下百度百科的介紹:編輯距離(Edit Distance),又稱Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另

原创 利用餘弦計算文本相似性

餘弦相似性 餘弦的概念對我們來說並不陌生,中學數學就開始接觸餘弦的概念了,在三角形中,餘弦的公式是: cosα=b2+c2−a22bc(式1−1) 在向量表示的三角形中,假設向量 a⃗ =(x1,y1) , b⃗ =(x2,

原创 機器學習系列之最小二乘法

最小二乘法 最小二乘法,又稱最小平方法,是機器學習中基礎的算法之一,它是一種優化算法,通過最小化誤差的平方來尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和爲最小。在機

原创 Mysql-分頁查詢優化

###分頁查詢優化 分頁查詢在 mysql 中常遇到,如以下語句 select * from TableName limit 100,20; 用時大約需要0.03 sec。用時很短。 但是隨着偏移量的增加,查詢時間也隨之增加。比

原创 Python-讀寫文件

python 在寫python 代碼的過程,我發現在讀寫文件的過程中有的時候會出現點問題,所以還是想花點時間總結一下,加深一下自己的印象。 讀文件 python 中可以用 內置的open()函數來打開一個文件。源碼中是這樣定義的

原创 word2vct算法實現

本篇文章主要是實現python 自然語言處理包 gensim 中用於詞向量建模的 word2vec算法。 示例代碼如下: # encoding=utf-8 import logging import sys from gens

原创 Python-爬蟲

python 爬蟲 本篇博文是觀看了慕課網的python爬蟲課程—–爬取百度百科python詞條以及相關詞條的1000個頁面。自己的筆記以及代碼的實現。 什麼是爬蟲? 一段自動抓取互聯網信息的程序。互聯網是有一個個的網頁組成,

原创 Java-圖片格式

Java 圖片格式 這兩天在處理網絡圖片數據時,需要對不同格式的圖片採用不用的處理辦法,這就需要掌握圖片的格式識別。結合這兩天的學習內容,對其進行總結,以備將來不時之需。 通過 url 常見的圖片格式有jpg(jpeg),png,

原创 自然語言處理系列之TF-IDF算法

TF-IDF算法 TF-IDF(詞頻-逆文檔頻率)算法是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率成反比下降