2019·國慶·杭州 | Python爬蟲與文本分析工作坊 & 課題申報高級研修班
在過去的兩年間,Python一路高歌猛進,成功竄上“最火編程語言”的寶座。驚奇的是使用Python最多的人羣其實不是程序員,而是數據科學家,尤其是社會科學家,涵蓋的學科有經濟學、管理學、會計學、社會學、傳播學、新聞學等等。
大數據時代到來,網絡數據正成爲潛在寶藏,大量商業信息、社會信息以文本等非結構化、異構型數據格式存儲於網頁中。非計算機專業背景的人也可藉助機器學習、人工智能等方法進行研究。使用網絡世界數據進行研究,面臨兩大難點:
-
數據的獲取
- 文本(非結構化)數據的處理與分析
數據獲取需要藉助Python編程語言設計網絡爬蟲,而獲得的數據中有相當比例數據是非結構化數據,這就需要文本數據分析技術。本次課程參照已發表的社科類的文章,希望幫助大家解決文本分析這最難的兩大難點。課程設計的初衷是用最少的時間讓大家學到最有用的知識點,降低學習難度。希望學習完本課程後能讓各位結合研究需要對自己學科內的文本分析有一個全面深刻的瞭解,方便各位開展後續研究。
多重優惠福利
-
原價499元,現在限時特價199元。
-
購買後可發起組隊,組隊成功的隊長可全免學費
-
掃下方二維碼生成自己的課代表分享卡還有機會每單賺23.88元
- 邀請卡1個月有效期,失效後可加微信:372335839, 備註"網課"
課程目標
-
學會Python語言基本語法
-
掌握Python爬蟲基本原理
-
會設計和開發Python爬蟲
-
掌握文本分析相關庫
-
理解數據挖掘,特別是文本分析的思路和流程
- 瞭解文本分類、文本聚類
主講老師
大鄧,哈爾濱工業大學(HIT)管理學院信息管理系統方向在讀博士。曾在多所大學做 網絡數據採集和文本分析 分享,運營有【公衆號:大鄧和他的Python】,主要分享Python、爬蟲、文本分析、機器學習等相關內容。
適合人羣
本課程面向對象有:
-
0編程基礎
-
想從網上爬數據
-
想做文本分析
- 想了解機器學習
包括但不限於以上幾類人羣。
內容要點
第一部分 環境配置(1小時)
-
python簡介
-
python安裝
-
pycharm安裝
-
jupyter notebook安裝
- 第三方庫安裝方法
第二部分 Python快速入門(2小時)
-
基本語法
-
數據結構-list、str、dict、tuple、set
-
for循環、if邏輯
-
try-except
-
常用函數
-
案例1:爬蟲代碼中各知識點使用情況
- 案例2:文本分析代碼中各知識點使用情況
第三部分 Python網絡爬蟲快速入門(2小時)
-
網絡爬蟲原理
-
requests庫
-
bs4庫
-
元素(數據)定位
-
數據抓包
-
數據存儲(txt,csv)
-
案例1:豆瓣網數據抓取
- 案例2:知乎網站數據抓取
第四部分 快速入門Python文本分析(1.5小時)
-
文本分析應用場景
-
txt、pdf、word等類型文件的數據讀取
-
中文分詞-jieba庫
-
自然語言處理-nltk庫
-
可視化-pyecharts庫
-
數據分析-pandas庫
-
案例1-詞頻統計
-
案例2-製作詞雲圖
-
案例3-excel文件中時間及文本數據處理方法
- 案例4-使用情感詞典進行情感計算
第五部分 文本分析進階篇(1.5小時)
-
監督學習與非監督學習
-
使用機器學習進行文本分析的步驟
-
表達文本數據信息的方式(獨熱編碼、詞袋法、TF-IDF)
-
理解特徵矩陣、語料、文檔、特徵
-
機器學習庫-sklearn語法學習
-
瞭解協同過濾-推薦系統
-
案例1-文本情感分析
-
案例2-文本分類(以20news數據集爲例)
-
案例3-LDA話題模型
- 案例4-計算消費者購物偏好
文本分析相關文獻
學習課程時,可以參考閱讀以下文獻,瞭解如何在社科類研究中使用文本分析
[1]沈豔,陳贇,黃卓.文本大數據分析在經濟學和金融學中的應用: 一個文獻綜述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
[2]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230.
Author links open overlay panelComputational socioeconomics
[3]魏偉,郭崇慧,陳靜鋒.國務院政府工作報告(1954—2017)文本挖掘及社會變遷研究[J].情報學報,2018,37(04):406-421.
[4]孟慶斌, 楊俊華, 魯冰. 管理層討論與分析披露的信息含量與股價崩盤風險——基於文本向量化方法的研究[J]. 中國工業經濟, 2017 (12): 132-150.
[5]王偉,陳偉,祝效國,王洪偉. 衆籌融資成功率與語言風格的說服性-基於Kickstarter的實證研究.管理世界.2016;5:81-98.
[6]Chan J T K, Zhong W. Reading China: Predicting policy change with machine learning[J]. 2018.
[7]Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
[8]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.