原创 薅谷歌爸爸羊毛第一集 - 在Colab上運行Python代碼

爲什麼使用Colab 免費GPU提供超大算力和顯存,尤其是最近谷歌爸爸把Colab的GPU從古董級別的K80全面升級成Tesla T4後好像更牛逼了 融合了Jupyter使得Colab可視化十分友好 和Google Drive的

原创 Instgram爬蟲及其斷點續傳_一個AJAX異步加載爬蟲

任務描述 對於給定的Ins賬戶列表,需要爬下所有posts,對於每條post要有 時間 配文 配圖 點贊數 評論數 如果是小視頻,需要有 視頻 觀看數 Ins網站結構分析 Ins的post數據在json文件裏存儲,一個js

原创 使用Stata做脈衝響應分析

Source: Rizaudin Sahlan → Impulse Response Function with Stata (time series) 在這篇推文中,我們討論 VAR 模型中的脈衝響應函數(IRFs)。 脈衝響應

原创 如何優雅地管理微信數據庫?

最近每天在隔離點蹲着,發現隔離點的護士小姐姐每天兩次在羣裏扒聊天記錄統計一兩百號人的體溫真是太南了,所以想寫個程序幫小姐姐自動收集,今天剛好隔離期滿,也算是給這段特殊的經歷留個紀念。 這篇文章主要內容是: 如何找到微信本地緩存數

原创 公司的投資決策是否會受到同行股價的影響:公司是否對同行股價有學習效應

Foucault and Fresard - JFE - 2014 - Learning from peers’ stock prices and corporate investment 主要關注點 公司的投資會受到同行的市場估

原创 自然災害衝擊在供應鏈上的傳染效應

Barrot and Sauvagnat - 2016 - QJE - INPUT SPECIFICITY AND THE PROPAGATION OF IDIOSYNCR 主要發現 基於自然災害發生的特殊衝擊發現受影響的供應

原创 公司總部所在地是一個重要的定價因子嗎?

Wang - JF - 2006 - Does Corporate Headquarters Location Matter for Stock Returns? 文章目錄主要結論主要研究路徑機制異質性主要貢獻模型驗證地區股價聯動

原创 多重比較偏誤及三種調整方式:Benferroni/Holm/BHY Adjustment

這是一篇文獻閱讀筆記,文獻爲: Harvey C R, Liu Y, Zhu H. … and the cross-section of expected returns[J]. The Review of Financial S

原创 使用 Jupyter Notebook 配置Stata/Python/Julia/R

早在去年在 Coursera 上學 Julia 的時候就用過 Jupyter Notebook,當時感覺沒啥特別的。然鵝最近和連老師交流的時候突然發現了Jupyter 的妙處,就像一個美人兒,看一眼覺得還行,多看幾眼就發現了韻味,

原创 Stata Journal 2001-2019年全部期刊目錄及下載鏈接

幫連玉君老師的 Stata連享會 寫的一個小爬蟲,數據源爲 SAGE - Stata Journal ,把成果分享給大家。 This is Volume 1 Issue 1, November 2001 Patrick Royston

原创 內生交乘項的處理

對於含有內生解釋變量 P 及其參與構成的交乘項 PX 的模型 顯然不考慮交乘項的內生性、只引入內生解釋變量 P 的工具變量 Z 進行兩階段最小二乘估計(2SLS)是不合理的。根據Ebbes et al.(2016),對這種情況目前主

原创 使用正則表達式從文本中定位並提取想要的內容

文章目錄一、問題提出二、解決思路三、代碼四、結果 一、問題提出 還是年報問詢函的研究,需要從問詢函文本中提取交易所要求回覆的日期,同時還需要從公司回覆的文本中提取公司實際上回復的日期。因此需要對兩類文本分別進行分析。 二、解決思路 通

原创 分享一個Python的裝飾器函數避免程序假死

最近在爬公告,但是用 Pdfminer3k 把PDF轉成TXT的時候由於某些PDF格式不規範很容易出現轉一個文件要很久出現類似於程序假死的狀況,然而事實上這種情況出現的時候我更偏向於跳過這個公告等全部爬完後統一處理,所以我就給PDF轉

原创 6小時爬完上交所和深交所的年報問詢函

“沒有槍沒有炮我們給自己造。” —— 周書人 昨天開組會的時候導師說想搞年報問詢函的研究,但是買數據庫太貴了。我說放着我來 ( ‵▽′)ψ。 一、任務描述 分別從上交所和深交所的官網上爬取年報問詢函的記錄 二、解決思路 解析網

原创 百萬級數據分析通過拆分文件將程序運行速度提高135倍

任務描述: 對2010年後49083條上市公司股權變更數據(Firm-Event 觀測)分別統計每個事件發生前後15天公司: - 發佈的臨時公告數 - 累計超額收益(CAR) 數據描述: 數據集 總樣本數 2010年後的樣本數