原创 pandas 如何縮小內存使用(catagories)

參與:Pandapandas 是一個 Python 軟件庫,可用於數據操作和分析。數據科學博客 Dataquest.io 發佈了一篇關於如何優化 pandas 內存佔用的教程:僅需進行簡單的數據類型轉換,就能夠將一個棒球比賽數據集的內存佔

原创 Flink 1.10編譯實戰(CDH版本)

Flink1.10增加了一些新的特性 Flink 1.10.0 正式宣告發布!作爲 Flink 社區迄今爲止規模最大的一次版本升級,Flink 1.10 容納了超過 200 位貢獻者對超過 1200 個 issue 的開發實現,包含對 F

原创 VirtualBox網絡之僅主機(Host-Only)網絡連接互聯網絡

第一步:所有的虛擬機關機。 先刪除 第二步:共享當前筆記本上網的網絡     第三步:更改筆記本Adapter對應的IP地址   第四步:重新修改虛擬機地址 第五步:啓動虛擬機 ping www.baidu.com  

原创 015-算法面試必備-常見排序算法(快排,歸併,堆排,插入排序,選擇排序,冒泡排序)

今天推送常見的排序算法。 這些算法,在實習面試過程面過很多次,比如快排,我記得至少在面試過程中寫過3次。 堆排在找實習過程中寫過兩次。歸併排序寫過一次,在面美團的時候。 比較重視編程能力的一些國企,可能直接回讓你寫相關的排序算法 這些排序

原创 推薦系統老司機的十條經驗

本文來源微信公衆號:ResysChina,版權歸原作者所有,未經作者同意,請勿轉載。 原文:推薦系統老司機的十條經驗 作者:陳開江@刑無刀,金融科技公司天農科技CTO,曾任新浪微博資深推薦算法工程師,考拉FM算法主管,先後負責微博反垃圾、

原创 邏輯迴歸和支持向量機有什麼不同

邏輯迴歸和支持向量機之間的區別也是面試經常會問的一道題,特地找了一些相關資料看了下。損失函數 原文地址:http://charlesx.top/2016/03/LR-SVM/                SVM的處理方法是隻考慮supp

原创 結合sklearn說一下特徵選擇

特徵選擇(排序)對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的性能,更能幫助我們理解數據的特點、底層結構,這對進一步改善模型、算法都有着重要作用。特徵選擇主要有兩個功能:減少特徵數量、降維,使模型泛化能力更強,減少

原创 特徵離散和特徵選擇

連續特徵的離散化:在什麼情況下將連續的特徵離散化之後可以獲得更好的效果?Q:CTR預估,發現CTR預估一般都是用LR,而且特徵都是離散的。爲什麼一定要用離散特徵呢?這樣做的好處在哪裏?A:在工業界,很少直接將連續值作爲邏輯迴歸模型的特徵輸

原创 Labelhot和OneHot的使用

對於一些特徵工程方面,有時會用到LabelEncoder和OneHotEncoder。比如kaggle中對於性別,sex,一般的屬性值是male和female。兩個值。那麼不靠譜的方法直接用0表示male,用1表示female 了。上面說

原创 sklearn OneHot編碼

1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不僅對 label 可以進行編碼,還可對 categorical feature 進行編碼:>>>

原创 FastJSON的使用

原文:https://blog.csdn.net/tygxy574232205/article/details/81384063 0. 目錄 1.FastJson簡介 2.FastJson三個核心類 3.Maven 4.Java API

原创 CentOS中命令別名的使用

在Linux系統中,誤敲錯rm命令是一件很容易發生的事情能。所以,怎樣避免因爲rm命令帶來的危害是很重要的。在Linux系統中要做到rm命令的交互其實很簡單,只需要簡單的使用rm -i命令就可以了。但是每次都這樣輸入的話會造成敲擊鍵盤的次

原创 SpringBoot的Controller,Service,Repository層的使用

找回熟悉的Controller,Service Controller哪兒去了? 對於很多習慣了Spring開發的同學來講,Controller,Service,DAO 這些套路突然間都沒了會有不適感。其實呢,這些東西還在,只不過對於較簡單

原创 微信文章測試

一:安裝Hadoop環境 1安裝virtual box,設置虛擬網卡的IP地址,和虛擬機同一個網段 2在虛擬機中選用host-only網絡 vi /etc/sysconfig/network NETWORKING=yes

原创 Linux硬盤掛載和卸載

本文簡單介紹了下文件系統及其操作(df命令),磁盤分區、格式化,還有最主要是掛載操作。 在這裏對“掛載”做個說明,我們都知道文件系統是創建在磁盤上面的,每個文件系統都有獨立的inode、block等信息,而這個文件系統要能連接到目錄樹才