原创 pd-- get_dummies進行one-hot編碼
離散特徵的編碼分爲兩種情況: 1、離散特徵的取值之間沒有大小的意義,比如color:[red,blue],那麼就使用one-hot編碼 2、離散特徵的取值有大小的意義,比如size:[X,XL,XXL],那麼就使用數值的映射{X:1,XL:
原创 函數 -重複嘗試 retry
函數重複執行 直到: 返回 Chrme/35 -- 等於或大於 30 的 Chrome/**
原创 HIVE -- 2 感悟
Hive學習使用一週感悟 最近一段時間主要在學習Hive SQL語句並完成了一個小任務,熟悉了Hive SQL的基本語法和應用, 對進一步學習使用Hive SQL來分析處理數據打下了一個基礎。 數據科學領域最重要的在於數據本身,一起技能和工
原创 python批量修改txt文件,csv文件 編碼格式
from os import listdir from chardet import detect fns = (fn for fn in listdir() if fn.endswith('.csv')) for fn in f
原创 總結 logistic迴歸,隨機森林,AdaBoost,KNN,常用的機器學習算法
貝葉斯分類器 核心:將樣本判定爲後驗概率最大的類 決策樹 核心:一組嵌套的判定規則 KNN算法 核心:模板匹配,將樣本分到離它最相似的樣本所屬的類 PCA 核心:向重構誤差最小(方差最大)的方向做線性投影 LDA 核心:向最大化類間差異、
原创 peewee的使用 python orm (加爬蟲技術)
自動提交,和定義 table name 。 爬蟲。 -- 自動判斷 返回的編碼resp.encoding = resp.apparent_encoding 爬蟲- http協議。 http://yxtsunny.lofter.c
原创 pandas和 excel 嘗試
增加一個 求和 : :新增最後一行 ,15行,求和: ok 求 state(美國各州 )列的 縮寫.加到 abbrev 這一列 : key,value生成 字典和list : python3 用 dict(d
原创 navicat,mysql常用操作
navicat複製一個表裏所有的字段的快捷方式 有時需要複製一個表裏的所有的字段用來拼寫sql字段 列表,並且還需要以逗號連接。可用sql查: 1.這種是以逗號連接的字段列表: select group_concat(COLUMN_N
原创 pgsql 去重
還有2種方法 ,參考 : https://yq.aliyun.com/articles/93515?t=t1
原创 hadoop-2.7.6 安裝,hive安裝
http://www.powerxing.com/install-hadoop/
原创 正則表達式
下圖列出了Python支持的正則表達式元字符和語法: 1 -1 Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯爲Pattern實例,然後使用Pattern實例處理文本並獲得匹配結果(一