原创 MatchZoo 文本匹配工具包

MatchZoo是封裝了一系列文本匹配的框架包含以下算法: 官網地址:https://github.com/kouunn/MatchZoo Model Detail: 1. DRMM this model is an implementa

原创 Naive Bayesian for Text Classification (MLE, Gaussian Naive Bayesian)

The Naive Bayesian is a baseline for text classification problem. A spam email example. We need to count the frequency

原创 如何寫好一封paper Summary

爲什麼要寫summary? 對於AI的學習來說,讀論文的能力可以說是必備的技能。在平時工作中也需要花大量的時間來閱讀文章。 閱讀文章的能力不是一兩天就可以培養的,需要長期的努力,以及正確的論文閱讀方法。 基本上通過3-4個月的訓練可以養成

原创 Algorithm: k-nearest neighbors and decison boundary(Cross Validation)

KNN Algorithm implementation reference: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm from matplotlib.co

原创 基於集成學習模型的估價預測(量化投資)

股價的預測 這個領域屬於量化投資,也就是通過數量化的方式和模型去做投資決策。量化投資是一個很龐大的領域,從量化投資開始至今,衍生出了大量的投資理念和策略。 縱觀國內外量化投資現狀,國內其實剛剛起步,還有很長的路要走,這裏包括數據的完整性、

原创 Complexity Analysis and K-D Tree datastructure

Complexity for KNN algorithm and the Optimization for KNN search. Time complexity Space complexity Time/space complexit

原创 轉: 局部敏感哈希(Locality sensitive hash)

原理解釋: https://blog.csdn.net/chichoxian/article/details/80290782 代碼實現 https://blog.csdn.net/chichoxian/article/details/8

原创 Algorithm: Principle Component Analysis for High Dimension Reduction Data

The data preprocessing as standarlization or feature Scaling: https://en.wikipedia.org/wiki/Feature_scaling Before we i

原创 Overfitting and Regulization in Machine Learning

Logistic Regression by Sklearn sklearn.linear_model.LogisticRegression penalty: l1 ,l2 regulization, elasticent(combin

原创 Algorithm: Median of Two Sorted Arrays(Binary Search)

Problem come from : https://leetcode-cn.com/problems/median-of-two-sorted-arrays/ Solution references: https://www.geek

原创 Windows 7 64bit + Python 3.7.3 + Anaconda 3 安裝Xgboost庫

網上搜了一圈,各種安裝Xgboost的方法都有,有自己下源碼編譯用Cmake+Windows SDK編譯,或者用mingw-64編譯,然後配環境的。甚至筆者自己下載二進制文件安裝的都失敗了。 https://xgboost.readthe

原创 搭建情感分析系統,tf-idf,word2vec

情感分析問題 給定一個文本並輸出它的情感值,情感值無非是正面、負面或者中性。 我們希望通過使用一種算法去識別一個文本的情感,這個問題本身屬於文本分類問題。 如果只是正面或者負面,就是二分類問題;但如果是正面、負面和中性,則是三分類問題。

原创 Algorithm: Linear Regression

The Linaer Regression with the properties: the decision boundary is linear it is a regression moedl to predict the valu

原创 Pandas Numpy reference

for Pandas: https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html Numpy: http://jalammar.github.io/vi

原创 LRU Cache Implementation

Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: