原创 Python爬蟲基礎——requests、BeautifulSoup

最近由於工作需要,所以學習了一些爬蟲小知識。之前一直覺得爬蟲是黑科技,裏面的彎彎繞繞多得很,各種反爬技術和更高的爬蟲手段層出不窮,要學習是個難事。後來發現其實並不難,對於沒有刻意的反爬技術的網站而言,基本就是以下兩個Python庫的使用—

原创 梯度下降?梯度上升?梯度提升?

最近被這三個詞搞蒙了。原本沒覺得它們有多難區分,但真要向一個人解釋清類似“爲何要有梯度提升”這類問題,似乎還是很吃力,從而發現自己其實並沒有完全理解其中的含義。   也許根本就不存在什麼“梯度上升”,只有“梯度提升”罷,但我覺得,至少在中

原创 【paper閱讀】AlexNet論文閱讀(打卡)

3.3 局部響應歸一化(LRN) 在後續研究中被發現沒啥用   3.4 Overlapping Pooling 層疊池化如下圖: 進行了層疊池化,相比非層疊池化的model,更可以抵抗過擬合   3.5 總體的架構 共8個layer:前

原创 bashrc、bash_profile傻傻分不清楚?

我們在Linux或者MacOS系統安裝軟件並配置環境變量,或者進行一些設置的時候,總會碰到這樣的問題——爲什麼有些設置是在bash_profile中進行,而有些卻是bashrc?本文從實用性和易理解性出發,試着解釋一下 角度一——設置分爲

原创 【paper閱讀】paper01class02 《Deep Learning》論文閱讀、視頻問題及打卡

CNN-卷積神經網絡 CNN在處理自然信號上的四大關鍵思想: 局部連接——不是所有神經元之間都是有明顯關係的,互相產生連接的只是一小部分神經元。或者更確切地說,CNN關注的是pattern,而不是整張圖片 權重共享——相同的patter

原创 pandas禁用科學計數法、輸出時顯示全部行

禁用科學計數法一句話搞定:  pd.set_option('display.float_format',lambda x : '%.3f' % x) 禁用科學計數法,小數保留3位   輸出時顯示全部行一句話搞定: pd.set_opt

原创 將crontab執行的輸出,重定向到加了日期作爲文件名的日誌中,日期字符串的%必須要被轉義!

問題提出 如題,原本需要手動執行的任務,我現在想用crontab週期性執行,具體情況爲每一天固定時間執行一次。 以下是我原本代碼(不用crontab,手動執行) $ time bash taskrunner.sh >log/`date

原创 SELECT INTO FROM語句、INSERT INTO SELECT FROM語句、CREATE TABLE AS SELECT FROM語句三者區別

首先,這三條語句都可以用來進行數據遷移,即將表1中的數據複製到表2中; 其次依次說一下這三者: 1. SELECT INTO FROM: “全稱”:SELECT value1,value2 INTO table2 FROM table1

原创 Hadoop、HDFS、Spark、SparkSql、Hive、Pig、Impala,這些名詞到底是什麼關係?

先配圖一張,先有個總體感受   知乎回答: 大數據本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本上都是爲了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重

原创 tqdm模塊無法單行打印進度條

問題定位: python的tqdm模塊用於進度條打印等功能,在大部分IDE、大部分情況下是可以正常打印的,但當你手動停止了tqdm管理的代碼塊後,就會出現以下場景: 如上所示,此時的tqdm模塊無法單行打印進度條,有的時候還會每兩個進度

原创 爲何將連續變量離散化,就可以增加模型的“非線性能力”?

將連續變量離散化,可以增加模型的“非線性能力” 這句話我在不同的地方看到不少人說過,但這句話總是讓我感到困惑——知其然不知其所以然的困惑。今天我就從一個小白的角度嘗試着解釋一下這句話—— 首先,何爲“非線性能力”要搞清:非線性能力,指

原创 在anaconda指定虛擬環境下運行jupyter notebook

最近因爲要遠程調試TensorFlow代碼,因而在遠程服務器上搭建了TensorFlow框架。但又因爲遠程服務器沒有瀏覽器、沒有一切可視化的界面,所以代碼調試的任務就必須放在本地,也就是我得遠程進行代碼調試,即在本地使用服務器端的配置運行

原创 Mac的應用程序默認安裝地址

在"/Applications"下。   注意!"/Applications"指的是根目錄的Applications文件夾。若你去“~/Applications”去找,則什麼都找不到。   例如Pycharm。比如我們要找Pycharm的

原创 python字典----根據value獲取對應key

Python dict根據key獲取value極其方便,直接dict[key]或者dict.get(key)就可以取到,但如何優雅高效的根據key取出value? 方法一:(萬能法,不必要求value值的唯一) 直接遍歷,很簡單,就不解釋

原创 命名體識別(NER)實戰---NLP技術

命名體識別(Name Entity Recognition)是自然語言處理(Nature Language Processing)領域中比較重要的一個任務,幾乎百分之50的和文本處理有關的項目中都會涉及到命名體識別。筆者認爲其中最關鍵的原