原创 pd-- get_dummies進行one-hot編碼

離散特徵的編碼分爲兩種情況: 1、離散特徵的取值之間沒有大小的意義,比如color:[red,blue],那麼就使用one-hot編碼 2、離散特徵的取值有大小的意義,比如size:[X,XL,XXL],那麼就使用數值的映射{X:1,XL:

原创 函數 -重複嘗試 retry

函數重複執行 直到: 返回 Chrme/35 -- 等於或大於 30 的 Chrome/**

原创 HIVE -- 2 感悟

Hive學習使用一週感悟 最近一段時間主要在學習Hive SQL語句並完成了一個小任務,熟悉了Hive SQL的基本語法和應用, 對進一步學習使用Hive SQL來分析處理數據打下了一個基礎。 數據科學領域最重要的在於數據本身,一起技能和工

原创 python批量修改txt文件,csv文件 編碼格式

from os import listdir from chardet import detect fns = (fn for fn in listdir() if fn.endswith('.csv')) for fn in f

原创 總結 logistic迴歸,隨機森林,AdaBoost,KNN,常用的機器學習算法

貝葉斯分類器 核心:將樣本判定爲後驗概率最大的類 決策樹 核心:一組嵌套的判定規則 KNN算法 核心:模板匹配,將樣本分到離它最相似的樣本所屬的類 PCA 核心:向重構誤差最小(方差最大)的方向做線性投影 LDA 核心:向最大化類間差異、

原创 peewee的使用 python orm (加爬蟲技術)

自動提交,和定義 table name 。 爬蟲。 -- 自動判斷 返回的編碼resp.encoding = resp.apparent_encoding 爬蟲- http協議。 http://yxtsunny.lofter.c

原创 pandas和 excel 嘗試

增加一個 求和 : :新增最後一行 ,15行,求和: ok 求 state(美國各州 )列的 縮寫.加到 abbrev 這一列 : key,value生成 字典和list : python3 用 dict(d

原创 navicat,mysql常用操作

navicat複製一個表裏所有的字段的快捷方式 有時需要複製一個表裏的所有的字段用來拼寫sql字段 列表,並且還需要以逗號連接。可用sql查: 1.這種是以逗號連接的字段列表: select group_concat(COLUMN_N

原创 pgsql 去重

還有2種方法 ,參考 : https://yq.aliyun.com/articles/93515?t=t1

原创 hadoop-2.7.6 安裝,hive安裝

http://www.powerxing.com/install-hadoop/

原创 正則表達式

下圖列出了Python支持的正則表達式元字符和語法: 1 -1 Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯爲Pattern實例,然後使用Pattern實例處理文本並獲得匹配結果(一