原创 Algorithm: Random Forest, ensemble model

Ensemble Model For clasisfication problem the ensemble model is very effective. Such as  the situation of the Image rec

原创 項目:廣告點擊預測率評估

背景:一方面有流量的企業希望最大化廣告收益;另一方面需要流量的個體希望最小化廣告投放成本但同時最大化效果,這就是一個博弈的過程。 目前市面上流行的百度信息流、微信朋友圈投廣都是基於這類的博弈過程。你可以設想一下: 假如有幾家公司想在百度投

原创 C/C++浮點數的存儲方式,以及實現一個ftoa函數將浮點數轉換爲字符串

浮點數的存儲格式   轉載自 : http://www.cnblogs.com/dolphin0520/archive/2011/10/02/2198280.html     C/C++浮點數在內存中的存儲方式        任何數據在內

原创 Image Recognition by KNN Algorithm

Dataset: http://www.cs.toronto.edu/~kriz/cifar.html The CIFAR-10 dataset consists of 60000 32x32 colour images in 10 cl

原创 Algorithm: Decision Tree, Entropy, Information Gain and Continues features

Deciesion Tree is the foundation of the random forest. A decision tree is a decision support tool that uses a tree-like

原创 Algorithm: KNN for Regression Problem

The KNN algorithm can not only used in the classify problem, it also can be used for the value prediction as regression

原创 Algorithm: Logistic Regression and Gradient Descent

The most classic model in machine learning : Logistic Regression. Some problems for two class classify Logistic Regre

原创 Disjoint Union Set 並查集

Equations are given in the format A / B = k, where A and B are variables represented as strings, and k is a real number

原创 基於K-Means算法的應用 User Clustering

User Clustering     計算出segment 對於Recence,先對數據進行排序,然後映射到4個bucket中,數值越大價值越大 接着計算對於R的 segment 接着對M排序並映射到bucket中,然後計算對應

原创 基於論文[From Word Embedding to Document Distance]的實驗

代碼參考: https://github.com/mkusner/wmd   一,準備環境 安裝好anaconda筆者這裏用的是python3 64bit的版本 需要用到這個庫,gensim conda install -c conda

原创 【工具】幾個寫文章和paper相關的工具

1. Mathpix 能把圖片中的公式轉成Latex格式,方便後續進行公式編輯 現在各種markdown,word,知乎,CSDN都支持Latex公式了。複製公式強烈推薦! https://mathpix.com/ 2. Latex強大的

原创 Chatbot 聊天機器人相關資料

chatbot guide: https://zhuanlan.zhihu.com/p/55201625 1.retrieval based chatbot: https://zhuanlan.zhihu.com/p/54795545 2

原创 Algorithm: Boosting model with XGBoost

Difference between bagging and boosting: We call each sub model in ensemble mode as weak learner. In random forest, it

原创 git 基本使用

 一,Github簡介    二,創建SSH (每次提交可以不用輸用戶名密碼) HTTP方式需要每次用戶名密碼認證 在Github中 新增SSH 打開一個終端並生成一個SSH的Key文件 生成好的文件: 將公鑰添加至Github:

原创 Algorithm: K-Means

K-Means The K-Means is  an unsupervised learning algorithm which has the input sample data without label. Sometimes we