原创 http、https和數字證書的相關知識

http協議 http協議全稱超文本傳輸協議,是一個基於請求與響應,無狀態的,應用層的協議,常基於TCP/IP協議傳輸數據,互聯網上應用最爲廣泛的一種網絡協議,所有的WWW文件都必須遵守這個標準。設計HTTP的初衷是爲了提供一種發

原创 jvm 垃圾回收:新生代都是複製算法,老年代都是標記整理算法

1、爲什麼新生代都是複製算法 因爲新生代對象生存時間比較短,80%都是要回收的對象,採用標記-清除算法則內存空間碎片化嚴重,採用複製算法可以靈活高效,且便與整理空間。 2、老年代都是標記整理算法 標記整理算法解決來標記-清除算法的

原创 2020騰訊廣告大賽 :13.5 baseline

前言 數據集有點大,大概是3千萬的數據,1G左右,如果用機器學習方法,預計需要內存32G左右,至少需要24G,或者自己分批慢慢跑特徵,很多人用自然語言處理的時序模型來做本次比賽,需要的機器會更高一些,是在沒機器跑了。本代碼是在騰訊

原创 小白學習CTR模型:GBDT+LR

前言 晚上很多內容講解LGBT+LR的推薦系統,但是很多都講解的都過於自然,很多都省略了,本文從小白角度來慢慢分析。包括代碼分析等等。 問題是什麼 CTR全稱是click-through rate,中文名叫點擊率,它是怎麼回事呢?

原创 LSTM:長短期記憶網絡 (Long short-term memory)

LSTM :Long short-term memory 這也是RNN的一個變種網絡,在之後大家都可以見到各類變種網絡,其本質就是爲了解決某個領域問題而設計出來的,LSTM是爲了解決RNN模型存在的問題而提出來的,RNN模型存在長

原创 zookeeper理論篇

zookeeper 是什麼 zookeeper是一個分佈式服務管理框架,基於觀察者設計模式,他負責管理和存儲大家都關心的信息,並且接受觀察者的觀察監控,一旦數據節點發生變化,zookeeper就負責通知註冊的觀察者。總體來說就是z

原创 Anaconda 講解 與 jupyter notebook 搭配

前言 方便管理各類python庫環境,來回切各類環境,因爲有的時候別人的代碼運行需要特定的python版本,所以新建一個python環境非常方便。 安裝 Anaconda官方下載之後,Mac 下直接用命令行來安裝吧: $ bash

原创 SVM:通俗易懂的SMO算法

前言 SVM算法中目標函數最終是一個關於aaa向量的函數。本文將通過SMO算法來極小化這個函數。 SMO算法 首先我們再寫一下帶核函數的優化目標: min⏟a12∑i=1m∑j=1maiajyiyjK(xi,xj)−∑i=1mai

原创 最簡單的機器學習入門:線性迴歸

前言 線性函數用來做迴歸、做分類其實是數學內容應用與時間的一個簡單方法,其實這個高中生都可能會了解,只不過針對批樣本用到了矩陣,會涉及到一些線性代數內容。讓我們來了解一下這個數學背後的邏輯。 簡單的y=wx+b直線函數表達式 我們

原创 支持向量機(SVM)中的對偶問題

前言 在SVM中有一個求極小值的問題轉換過程,轉換爲一個對偶問題,但是我不太清楚這個問題爲什麼可以轉換,而且還不太清楚爲什麼這麼轉換?不太明確轉換後有什麼優點,寫個文章來了解這些內容。 原始問題轉換 min⁡12∣∣w∣∣2s.t

原创 java hashmap 問題彙總

如何保證hashmap 數組大小一定是2的指數 tableSizeFor 在初始化 hashmap對象時會調用來得到這麼一個值,這個值用來作爲hashmap 數組大小。 static final int tableSizeFo

原创 基於協同過濾的推薦算法

前言 之前寫來基於內容的推薦方法,現在想要分析一下基於協同過濾的推薦方法,網上與很多文章介紹來,但是站在不同的角度思考同一個問題,或許讓你更加理解。 基於協同過濾的推薦:概念 協同過濾(Collaborative Filterin

原创 2-3樹 與 紅黑樹

前言 紅黑樹直接看有點懵,塗上顏色,顏色轉換,狀態調整,說實話,一上來這麼弄,我都不想看,有些東西你會知道是這麼回事,但是你不清楚爲什麼這麼做?爲什麼要塗上顏色?我自己也不太喜歡死記硬背,感覺很傷腦子,而且過一段時間就忘記了,這不

原创 TextRank算法:提取關鍵詞+摘要

前言 TextRank算法是基於PageRank的思想用在來文本領域,具體的PageRank算法可以參考我的博客:PageRank 頁面排名算法。接下來就讓我們瞭解一下怎麼用在文本領域。 概念 PageRank有節點、入鏈的概念,

原创 kaggle 入門一些問題

前言 最近研究一下kaggle機器學習平臺,這個憑條最大可提供16G的內存,還有CPU等資源使用,非常不錯,想着來學習一下。 讀取數據集 kaggle支持多種數據集,你可以自己上傳數據集,也可以用別人上傳的數據集,也可以用平臺提供