原创 似然估計總結

1.似然函數     統計學中,似然函數是一種關於統計模型參數的函數。給定輸出x時,關於參數θ的似然函數L(θ|x)(在數值上)等於給定參數θ後變量X的概率:L(θ|x)=P(X=x|θ)     似然函數在推斷統計學(Statistic

原创 貝葉斯模型及其應用總結

本文參考整理衆多資料而成。 http://blog.csdn.net/huaxi1902/article/details/24140061 http://mindhacks.cn/2008/09/21/the-magical-bayes

原创 隨機森林簡介

    隨機森林利用隨機的方式將許多決策樹組合成一個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。 隨機森林主要包括4個部分:隨機選擇樣本;隨機選擇特徵;構建決策樹;隨機森林投票分類。

原创 Hive SQL 數據去重簡析

    hive的很多表中或在執行表的join命令後,有可能在若干字段上存在重複現象,爲了後續業務的需要,減少計算量,需要對錶的重複記錄去重,最近幾天,在學習使用HQL的應用,也嘗試着處理表的重複記錄問題。 1.group by(不推薦使

原创 Python使用matplotlib繪圖示例

   Python中可以使用matplotlib來實現與MATLAB一樣的繪圖功能,十分強大,現在簡單的一個演示。 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : P

原创 解決真實世界問題:如何在不平衡類上使用機器學習?

如果你是機器學習課程的新手,那麼你使用過的數據庫很大程度上都是非常簡單的。其中一個原因就是,當你構建分類器時,樣本類都是平衡的——也就是說,每個類中的樣本數量是大致相同的。在教學中,數據庫通常是淨化過的,這樣老師才能夠把注意力集中在教授

原创 Intellij IDEA 15中文輸入框不跟隨怎麼辦?

    最近剛轉向IDEA,發現了一個令人頭疼的事情,就是搜狗輸入法在IDEA裏面使用的時候,打字只顯示第一個字母,後面你再打字的時候,字母和漢字都不隨着你的打字而向後提示,導致你不知道現在你打的字是什麼,只有當你按下空格鍵的時候才知道

原创 Hive文件存儲格式

列式存儲和行式存儲上圖左邊爲邏輯表,右邊第一個爲行式存儲,第二個爲列式存儲。 行存儲的特點: 查詢滿足條件的一整行數據的時候,列存儲則需要去每個聚集的字段找到對應的每個列的值,行存儲只需要找到其中一個值,其餘的值都在相鄰地方,所以此時

原创 Hive SQl語句的執行

1.  hive語句執行時哪些在map執行,哪些在reduce執行呢      Map/Reduce是在物理執行計劃的地方生成的。        很簡單,ReduceSinkOpertor之前的在Map執行,ReduceSinkOpera

原创 Hive學習使用一週感悟

    最近一段時間主要在學習Hive SQL語句並完成了一個小任務,熟悉了Hive SQL的基本語法和應用,對進一步學習使用Hive SQL來分析處理數據打下了一個基礎。     數據科學領域最重要的在於數據本身,一起技能和工具都是過程

原创 連續特徵離散化

   本文整理自知乎及其他相關資料:   連續特徵的離散化:在什麼情況下將連續的特徵離散化之後可以獲得更好的效果 回答一:    在工業界,很少直接將連續值作爲邏輯迴歸模型的特徵輸入,而是將連續特徵離散化爲一系列0、1特徵交給邏輯迴歸模

原创 使用Scikit-learn實現基於內存的協同過濾算法(使用movieLens數據集)

   研究生階段用Java寫過推薦系統,前幾個月也用Python實現過簡單的推薦算法,最近一直在系統的重新學習機器學習和一些工具,如Scikit-learn和TensorFlow,但限制於條件,做不了太多東西,目前公司動盪,部門裁撤,估計

原创 xgboost原理及應用

 最近看一些網絡競賽的解決方案,不少方案都用到了Xgboost模型,現在轉載一篇寫的比較好的博客,以便進一步研究和實踐。感謝原作者:   http://blog.csdn.net/a819825294/article/details/51

原创 處理文本數據(scikit-learn 教程3)

出處:http://www.cnblogs.com/taceywong/p/5907221.html 本教程的主要目標是通過分析包含二十個不同話題的文檔集合這以實際任務,來介紹scikit-learn中文本數據處理相關的主要工具.

原创 簡單Python決策樹可視化實例

   本文主要內容參考:http://www.cnblogs.com/pinard/p/6056319.html    首先需要安裝第三方庫:第一步是安裝graphviz。下載地址在:http://www.graphviz.org/。無論