原创 大數據ETL實踐探索(8)---- 數據清洗的目的,方法

文章大綱統一數據接入數據清洗的目的解決數據質量問題讓數據更適合做挖掘、展示、分析數據清洗的步驟第0步:數據導入及元數據處理第一步:缺失值清洗第二步:格式內容清洗第三步:邏輯錯誤清洗第四步:非需求數據清洗第五步:關聯性驗證數據採集建

原创 《自然語言處理實戰入門》第三章 :中文分詞原理及相關組件簡介 ---- 分詞算法原理

文章大綱0.內容梗概分詞算法介紹語言模型HMMCRF結構化感知器開源實現bi LSTM開源實現維特比算法漢語分詞技術----以jieba 分詞爲例Jieba分詞的特點分詞算法未登錄詞識別與詞性標註未登錄詞識別詞性標註參考文獻

原创 《自然語言處理實戰入門》NLP 可視化 ---- 文本內容可視化

文章大綱基於關鍵詞的文本內容可視化標籤雲(Tag Cloud/Text Cloud/Word Cloud)標籤詞抽取--TF-IDF標籤詞抽取--TEXTRANK詞雲繪製文檔散(DocuBurst)文檔卡片時序性的文本內容可視化主

原创 《自然語言處理實戰入門》---- 如何成爲一名 NLP 工程師?

文章大綱名企需求NLP 領域總體情況一覽總體情況知識體系提升方案核心能力提升熟練相關框架熟練NLP 的知識結構熟練機器學習相關算法詳實的項目經驗學習資源題庫資源優秀題目優秀博文精彩案例1.文本搜索2.綜合可視化3.文本生成

原创 大數據ETL實踐探索 ---- 使用python 進行 快速EDA綜合可視化

文章大綱可視化處理的前置處理數據清洗使用pandas 對數據進行處理數據存儲數據入庫postgreSQL 安裝數據入ESES 和 傳統數據庫 結構對比mapping大數據可視化非結構化數據可視化結構化數據可視化cubessupe

原创 大數據ETL實踐探索(9)---- postgresSQL 數據入庫使用pandas sqlalchemy 以及多進程

文章大綱基礎性工作連接類sqlclchemy 基礎操作類sqlalchemy 數據庫shema 表 樣例psycopg2 原生 apipgAdmin 導入pandas 數據清洗與to_sql方法錄入數據數據清洗to_sql 數據錄

原创 《自然語言處理實戰入門》 ---- NLP 可視化 之文本內容可視化

文章大綱基於關鍵詞的文本內容可視化標籤雲(Tag Cloud/Text Cloud/Word Cloud)標籤詞抽取--TF-IDF標籤詞抽取--TEXTRANK詞雲繪製文檔散(DocuBurst)文檔卡片時序性的文本內容可視化主

原创 《自然語言處理實戰入門》---- 第1課:自然語言處理簡介

本博客爲《自然語言處理實戰課程》---- 第一課:自然語言處理簡介 講稿 文章大綱個人簡介本節課程導覽1.自然語言處理(NLP)簡介1.1 基礎技術1.2 NLP 核心技術1.3 NLP+(高端技術)1.4 課程涵蓋的主要內容總

原创 如何快速部署靜態頁面?

文章大綱靜態頁面靜態頁面發佈的幾種方式1. httpd2. Nginx爲何選用 NginxNginx 安裝3. 雲廠商 服務aws s34. github gitlab 代碼倉庫的靜態頁面服務自動化部署的幾種方式python 調

原创 《黑客與畫家:硅谷創業之父Paul Graham文集》----讀書筆記

文章大綱保羅·格雷厄姆其人其事人物經歷圖書介紹個人作品編輯譯者序爲什麼書呆子不受歡迎黑客與畫家不能說的話你是一個隨大流的人嗎真話異端邪說時空差異機制爲什麼這樣做守口如瓶笑臉相迎?永遠質疑良好的壞習慣另一條路設計與研究點評 保羅·

原创 《周鴻禕自述:我的互聯網方法論》----摘抄

文章大綱第一章 歡迎來到互聯網時代第二章 互聯網裏的用戶至上第三章 顛覆式創新第四章 免費時代第五章 體驗爲王第六章 互聯網方法論附錄 周鴻禕批註“遺失的喬布斯訪談” 周鴻禕個人簡介: 周鴻禕這個人比較有爭議,如果不是他,中

原创 《自然語言處理實戰入門》 第二章:NLP 前置技術----爬取本人CSDN博客

文章大綱1對象關係映射1.1 簡介1.2 博客相關信息與對象映射2. 博客爬蟲的編寫2.1 爬蟲爬取邏輯回顧2.2 爬取本人CSDN 博客 爬蟲邏輯 1對象關係映射 1.1 簡介 ORM框架的作用就是把數據庫表的一行記錄與一個對

原创 《自然語言處理實戰入門》第二章: NLP前置技術----網絡爬蟲簡介

我們平時做自然語言處理,機器學習,都是希望能夠有豐富的訓練數據集,這樣才能獲取質量上乘的模型。在大數據時代,處理數據已經不再是是問題了,spark,hadoop ,Elastic search提供了海量甚至巨量的分佈式數據處理方法

原创 《自然語言處理實戰入門》---- 可視化初步

文章大概matplotlib 可視化相關設置matplotlib seaborn 繪圖加載中文字體CentOS 安裝中文字體查看matplotlib 字體目錄查看系統可用的中英文字體matplotlib 設置中文字體seabor

原创 《自然語言處理實戰入門》 ---- NLP 可視化

文章大綱可視化,大數據最完美的呈現方式數據統計的維度語料分析的展現維度參考文獻 推薦一本書,《數據之美》一本書學會可視化設計。 可視化,大數據最完美的呈現方式 大數據若是一種無形的土壤,那可視化就是澆水、施肥,讓其開出美麗之花的工