原创 Linux中sudo執行網絡代理的命令

Linux中sudo執行網絡代理的命令 在Linux系統中,有時候root和普通用戶都設置了代理,但是通過sudo執行仍然不能訪問網絡。比如: sudo pip install 解決方法是在/etc/sudoers中加入: De

原创 pandas中時間窗函數rolling的使用

在建模過程中,我們常常需要需要對有時間關係的數據進行整理。比如我們想要得到某一時刻過去30分鐘的銷量(產量,速度,消耗量等),傳統方法複雜消耗資源較多,pandas提供的rolling使用簡單,速度較快。 函數原型和參數說明 Da

原创 什麼是P問題,NP問題,NPC問題,NP-Hard問題

本文搬運自什麼是P問題、NP問題和NPC問題,作者是Matrix67,本文在原文之上略做修改,加黑了重點的地方, 對部分稍難理解的地方做了解釋,原文已經講的非常清楚了,向原作者致敬(作者12年前寫這篇文章的時候應該只是高中生),轉載請保留

原创 使用國內鏡像修改pip源

0.背景 博主通常使用anaconda來管理Python環境,但是anaconda有個問題就是包的更新並不及時,在pandas已經有0.23版本的時候anaconda當中仍然只有0.20版本。所以我們有時候需要使用pip進行安裝。

原创 稀疏矩陣存儲格式CSC(Compressed Sparse Columns Format)

最近在看XGBoost的論文,其中提到爲了並行學習,我們使用了Column Block的這種方法[1],而每個Block中的數據,我們就是以CSC形式存儲的。本文根據網絡內容重新整理,介紹下CSC這種格式。主要參考自理解Compr

原创 XGBoost的以mae作爲優化目標探究

1 mae/mad和mse介紹 Mse:mean-square error。 可導,常常作爲loss function。 MSE(y,yˆ)=1nsamples∑i=0nsamples−1(y−yˆ)2 Mae:mean ab

原创 CentOS7.4網站部署全紀錄

本文用於在雲服務器(CentOS7.4)上部署網站,但不包含數據庫的安裝和配置。 0 前置準備 CentOS 7.4服務器 網站的war包(網站不包含數據庫交互) 1 安裝jdk,tomcat,環境變量配置,tomcat自啓動

原创 谷歌機器學習術語表

https://developers.google.cn/machine-learning/glossary/

原创 Hive中日期與時間戳的轉換

什麼是時間戳? 時間戳是指**格林尼治時間**1970年01月01日00時00分00秒(北京時間1970年01月01日時00分00秒)起至現在的總秒數。 注意:不管你在地球上的任何地方,這一時刻的時間戳是相同的。但是!同一個時間戳

原创 與論文結合詳解XGBoost參數

本文最後修改於2018-01-23,文章有問題或者轉載請及時聯繫本人,如果對你有幫助,別忘了點下關注和喜歡,感謝! 0 前言 網絡上XGBoost的參數翻譯很多,但是都沒做什麼解釋,本文一部分內容參考自 Complete Guide t

原创 Python中for後接else的語法

0.背景 今天看到了一個比較詭異的寫法,for後直接跟了else語句,起初還以爲是沒有縮進好,查詢後發現果然有這種語法,特此分享。之前寫過c++和Java,在for後接else還是第一次見。 1.試驗 # eg1 import n

原创 Geohash編碼原理解析(附代碼)

本文最後修改於2018-03-26,文章有問題或者轉載請及時聯繫本人,如果對你有幫助,別忘了點下關注和喜歡,感謝! 本文文字內容,圖片參考整理自:http://www.cnblogs.com/LBSer/p/3310455.html 0

原创 Hive當中實現pivot操作

0.背景 實際工作當中遇到這樣一個問題,數據如下,但是我想通過SQL將數據轉換成按列展示的形式,即常用的pivot透視操作。 # 原始數據 id item value 1 a 10 2 b 21 1 b

原创 GIthub搭建靜態網頁並綁定阿里雲域名

0.背景 創建一個靜態網站用於展示自己,組織,項目等。 1.利用github建立網站 建立一個以用戶名打頭的倉庫,形式爲xxx.github.io,xxx必須是你的用戶名,否則可能不起作用。倉庫可以是privte或者public

原创 Mac上Gdb安裝和使用的過程

0.1 背景 Gdb是一款代碼調試工具。Mac下依舊支持,但是由於MacOS系統本身以及版本不協調等原因使用過程會遇到各種各樣的問題。本文詳細記錄了從Gdb安裝,鑰匙串配置,與VScode結合調試的過程。 0.2 版本 Mac版本