原创 【Tensorflow】用於處理checkpoint中參數名稱與矩陣數值的工具類

0x00 前言 目前對於Tensorflow的模型參數文件,我們處理起來沒有Pytorch的參數文件那樣方便, 並且現在任務中有個需求,要在“某幾個參數矩陣中,將特定行的參數複製到某些其他行”。 Pytorch的話就還好,因爲畢竟

原创 Advanced Algorithm 聽課筆記(Useful Inequalities & Balls and Bins)

0x00 前言 作爲學術生涯的最後一門課,選了一門據說是最難的,上下來的感覺也確實是難得不行,不太懂…… 決定照着ppt和上課的筆記整理一下,以此爭取達到複習的目的。 (意思是有些雖然寫出來了,但自己都不見得明白,有的部分存疑後續

原创 【GraphLite】同步圖運算初試-數三角形

0x00 前言 圖很適合進行分佈式並行計算,比如最短路徑,PageRank等問題,比較著名的圖計算框架有Prege,cmu的GraphLab,apache的Giraph等。GraphLite屬於BSP模型。 GrpahLite:

原创 【Pytorch】Windows10下配置Pytorch環境

0x00 前言 前言什麼的也懶得說了…… 總之: 聽說你Pytorch很牛, 不樂意讓我Windows用, 而我又聽說pytorch用來訓練模型超好用, 不僅沒頭腦而且不高興!我要在我的windows上配一個! [

原创 【selenium】Windows平臺下使用python自動登陸網關 (更新至 v1.1.0)

0x00 前言 所裏開啓了兩步驗證與二級加密(就不說是哪裏了); 以前的auto_login用不了了,所以嘗試着有沒有什麼新法子; 看到一個用 Phantomjs + Selenium 的解決方案,着手試試看好了。 文中涉及的

原创 【列表解析式】Python的單行操作秀

0x00 前言 items = [line for line in open('test.txt', 'rb')] 通常,我們會在代碼中看到一些形似上面的炫目操作(什麼你們覺得很正常?好嘛是我菜了QvQ) 我一頭猛扎進了pytho

原创 Advanced Algorithm 聽課筆記(Introduction & Complexity Class)

0x00 前言 作爲學術生涯的最後一門課,選了一門據說是最難的,上下來的感覺也確實是難得不行,不太懂…… 決定照着ppt和上課的筆記整理一下,以此爭取達到複習的目的。 (意思是有些雖然寫出來了,但自己都不見得明白,有的部分存疑後續

原创 【Matplotlib】在Jupyter交互頁面中繪製折線圖對比(自用函數)

0x00 前言 最近數據對比的任務比較常見,比如好些模型的橫向對比, 對於 Loss、PRF、Hits 之類的數據,有時需要作log,有時需要去除前面幾個值, 還要考慮數據不對齊、記錄文件格式不一致等諸多問題,總之主需求是魯棒性,

原创 【Multiprocessing】採用多進程計算處理數據

0x00 前言 在數據處理方面,通常會將較爲簡單的源數據存於本地磁盤中, 每次使用時讀取,經過生成函數生成模型可以直接使用的訓練數據, 而這種數據通常爲矩陣的形式,考慮到padding位的情況下通常較大, 那麼,在源數據的量

原创 【Tensorflow】超參調整時對於模型重加載輕量化的測試

0x00 前言 由於各類模型在落地使用時都或多或少地需要一些超參的調整(學名調參、俗稱煉丹), 但如果每次修改少量超參之後,都要把網絡和模型重新初始化一遍,這樣就太花時間了, 所以考慮能否儘量減少,甚至可以一次初始化,N個 for

原创 【Grpc】使用grpc配置通過端口訪問的python服務

0x00 前言 近期興趣使然的技術調研越發的少了(TTS算一個),主要的都是爲了項目和任務去研究的東西。目前的情況是爲了節約顯存,對一個較大的模型而言,比起使用4個worker來重複的佔用顯存,不如只佔用一份顯存,但是開啓服務流式

原创 【選課腳本】用Python網頁爬蟲來進行選(qiang)課 (更新至v1.0.7)

0x00 前言 每當選課的時候,都如同打仗一般 都有自己想要的課,但是名額就那麼一點 於是各顯神通,有人用js,有人用chrome的console 人生苦短,我用Python 0x01 環境依賴 Python 2.7.12

原创 【MapReduce Java】簡單的平均距離計算

要求 沒什麼太多要說的,以前的MapR in Python用熟練了,Java要不是作業感覺也不會太常用它了…… 就貼一下以備忘(防止以後突然要用java寫的時候可以來參考一下) 輸入文件:文本文件 每行格式 source _

原创 【HNS】試着領一下 HandShake 爲開源社區發放的 HNS Coin

0x00 前言 最近呢,開源社區除了這麼一件事: 《@ 開發者,這個 GitHub 項目可以褥羊毛》 簡單概述一下其大致意思呢就是: GitHub 有一個區塊鏈項目 Handshake 正在面向 GitHub 上前 25 萬名開

原创 【Pip】ValueError: ("Missing 'Version:' header and/or METADATA file at path

0x00 前言 有時候,pip install 用的好好的,突然就一屏幕紅字: ERROR: Error checking for conflicts. Traceback (most recent call last): F