工作成長備忘錄

告別?也許

2019年10月更新
今天又有同時跟我說,我這種更新備忘錄的方法實在是弱爆了,一個博客把自己的工作成長的全部記錄下來那要多長啊,翻一下確實好像……比較……變態哈,本來以爲由於本人與生俱來的的懶惰,每年更新1次就算是高生產力了,且三分鐘熱度,沒想到居然堅持了幾年,既然這樣,那就好好組織下,用標準的方式重新構建我的博客,江湖再見。

大數據的腦洞

2019年10月更新
最近在研究大數據突然想到命理學的大數據實現,嗯……
如果說世界上最早的數據主導的學說裏面,也許中國幾個傳統就是數據導向的巔峯,風水這種傳統經驗學說就是最大的數據導向行業,裏面的每一條規矩,都是經驗之談,有的對有的不對。但是來源都是因爲經驗的積累,並沒有實際的方法論支持(也許有,但遵循的方法論並不是全部經過驗證,這種總結出來的方法論,咱暫且當沒有)。而大數據,在我看來也是這麼一個東西,通過大量案例的訓練,我們將經驗導向推向高峯,我們人類也無法預測系統下一步的舉動是什麼,因爲支持系統做出決策的,其實是大量的經驗和案例,而不是某個具體的理論。當然,大概率的方向還是會延續我們已有的理論體系,但是就根下棋一樣,有些子,下得大家一頭霧水的。

問題:
1、數據的來源和清洗問題,需要一個足夠大的數據集,而這些數據,大多是個人隱私相關的,包括健康,事業,感情。
2、很多標準都是主觀標準,如何量化?事業運可以說是量化成職位和收入。健康好做點,和醫療信息聯通好了。感情呢?這怎麼量化?結沒結婚?這節點數量也太少了吧。
3、如果說風水是通過人爲經驗集結然後總結分析出來的理論,是不是我們可以用機器學習來預測個人的短期時運?比如國外有個項目是預測股票一樣?這算不算是殊途同歸?或者乾脆拋棄原來的糟粕,建立一個新時代的風水學說?計算機模擬,可以讓我們原來 100 年才能收集的數據分析工作,在一天內完成。

數據治理方法論

2019年1月更新
在長期對客戶的FineBI商業智能項目的跟蹤過程中我們發現,往往只有那些建立了一定的數據治理體系的客戶,才能真正的將商業智能用起來,用戶才能真正進入商業智能時代。這個問題在銀行等金融機構內顯得尤爲突出,銀行數據向來以量大質優而著稱,但是實際情況是它比其他行業好一些,但是長期以來也缺乏數據治理的體系化建設,導致商業智能價值鏈受阻。要想在數字化轉型中抓住機遇,銀行的數據治理體系建設勢在必行。

數據治理是一個系統工程,是一個從上至下指導,從下而上推進的工作。因此,在指導方面必須得到大家的共識,要有一個強有力的組織、合理的章程、明確的流程、健壯的系統,這樣才能使數據治理工作得到有效的保障。
轉載數據治理方法論:

https://baijiahao.baidu.com/s?id=1609664852125580100&wfr=spider&for=pc

NLP書籍推薦

2018年5月更新
關於“如何學習自然語言處理”,有很多同學通過不同的途徑留過言,這方面雖然很早之前寫過幾篇小文章:《如何學習自然語言處理》和《幾本自然語言處理入門書》,但是更推崇知乎上這個問答:自然語言處理怎麼最快入門,裏面有微軟亞洲研究院周明老師的系統回答和清華大學劉知遠老師的傾情奉獻:初學者如何查閱自然語言處理(NLP)領域學術資料,當然還包括其他同學的無私分享。

不過,對於希望入門NLP的同學來說,推薦你們先看一下這本書: Speech and Language Processing,第一版中文名譯爲《自然語言處理綜論》,作者都是NLP領域的大大牛:斯坦福大學 Dan Jurafsky 教授和科羅拉多大學的 James H. Martin 教授。這也是我當年的入門書,我讀過這本書的中文版(翻譯自第一版英文版)和英文版第二版,該書第三版正在撰寫中,作者已經完成了不少章節的撰寫,所完成的章節均可下載:Speech and Language Processing (3rd ed. draft)。

網盤遷移數據遷移完成

2017年9月更新

不知道是應該感激還是應該吐槽,終於將威盤數據成功的完成了威盤數據的遷移,通過一頓的搜索,目前百度、騰訊、金山確實均發出了網盤服務終止或是調整的公告,看來互聯網網的免費服務還是不靠譜啊,通過找尋後發現億方雲和堅果雲貌似已經在網絡存儲整改的風暴中堅強的活了下來,通過對比選擇億方雲提供服務,必經億方雲提供同步盤業務,地址備註如下:

https://v2.fangcloud.com/apps/files/desktop/files/dept/138241

網盤遷移備忘錄

2017年6月更新

突然一個炸雷在耳邊炸裂,約半年前威盤網貼出公告要在本月停止威盤服務!!!截圖如下在這裏插入圖片描述
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-hXXSHm8c-1571883849938)(clip/alarm.png)]
我的天我居然把這個消息給忘記了,導致目前許多工作上的資源均無法正常訪問,我的天啊,這個簡直是無法忍受的,鑑於本人的VIP身份直接同客服聯繫詢問原因,客戶回饋說是政策性問題,基本上整個網盤行業均在整改,不緊緊是威盤網一家的行爲,據說什麼百度、騰訊、金山的網盤服務也已經停止了,突然……好難過,你們知道北京的早晚高峯通勤,簡直簡直XXOO#@#!@#!XXOOO%#@因此註冊了網盤將工作內容全部上傳,這樣我就沒必要每次都帶電腦上下班了,很好的解決了我早晨擠不上地鐵的問題,居然現在又這樣………好難過,好難過!!!

由於數據丟失對個人損失太大,什麼OTT系統資料,收錄產品資料,聚合雲服務資料等近期項目上需要使用的材料全部都在威盤上,這個是生死存亡的狀態啊,沒辦法,通過和威盤客戶與運維人員溝通後,給出的解決方案是由於威盤的資源另作他用,因此將部分備份數據通過IP的方式向來不急進行數據遷移的VIP用戶提供數據的延長託管服務,爲了以免再度忘記,將我的臨時網盤路徑記錄如下:

臨時網盤 http://148.70.196.136/sunsetleo

m3u8備忘

2016年12月更新
3U8文件,文件內容如下:

#EXTM3U

#EXT-X-MEDIA-SEQUENCE:140651513

#EXT-X-TARGETDURATION:10

#EXTINF:8,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651513[140651513].ts

#EXTINF:9,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651514[140651514].ts

#EXTINF:11,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651515[140651515].ts

#EXTINF:10,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651516[140651516].ts

#EXTINF:12,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651517[140651517].ts

#EXTINF:8,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651518[140651518].ts

#EXTINF:12,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651519[140651519].ts

#EXTINF:8,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651520[140651520].ts

#EXTINF:9,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651521[140651521].ts

#EXTINF:13,

http://vapp1.fw.live.cntv.cn/cache/289_/seg0/index140651522[140651522].ts

M3U文件標籤及屬性說明
M3U文件中可以包含多個tag,每個tag的功能和屬性如下:

#EXTM3U

每個M3U文件第一行必須是這個tag,請標示作用

#EXT-X-MEDIA-SEQUENCE:140651513

每一個media URI 在 PlayList中只有唯一的序號,相鄰之間序號+1, 一個media URI並不是必須要包含的,如果沒有,默認爲0

#EXTINF:,

duration 指定每個媒體段(ts)的持續時間(秒),僅對其後面的URI有效,title是下載資源的url

#EXT-X-TARGETDURATION

指定最大的媒體段時間長(秒)。所以#EXTINF中指定的時間長度必須小於或是等於這個最大值。這個tag在整個PlayList文件中只能出現一 次(在嵌套的情況下,一般有真正ts url的m3u8纔會出現該tag)

#EXT-X-KEY

表示怎麼對media segments進行解碼。其作用範圍是下次該tag出現前的所有media URI,屬性爲NONE 或者 AES-128。NONE表示 URI以及IV(Initialization Vector)屬性必須不存在, AES-128(Advanced EncryptionStandard)表示URI必須存在,IV可以不存在。

對於AES-128的情況,keytag和URI屬性共同表示了一個key文件,通過URI可以獲得這個key,如果沒有IV(Initialization Vector),則使用序列號作爲IV進行編解碼,將序列號的高位賦到16個字節的buffer中,左邊補0;如果有IV,則將改值當成16個字節的16進制數。

#EXT-X-PROGRAM-DATE-TIME

將一個絕對時間或是日期和一個媒體段中的第一個sample相關聯,只對下一個meida URI有效,格式如#EXT-X-PROGRAM-DATE-TIME:

#EXT-X-PROGRAM-DATE-TIME:2010-02-19T14:54:23.031+08:00

#EXT-X-ALLOW-CACHE

是否允許做cache,這個可以在PlayList文件中任意地方出現,並且最多出現一次,作用效果是所有的媒體段。格式如下:#EXT-X-ALLOW-CACHE:

#EXT-X-PLAYLIST-TYPE

提供關於PlayList的可變性的信息, 這個對整個PlayList文件有效,是可選的,格式如下:#EXT-X-PLAYLIST-TYPE::如果是VOD,則服務器不能改變PlayList 文件;如果是EVENT,則服務器不能改變或是刪除PlayList文件中的任何部分,但是可以向該文件中增加新的一行內容。

#EXT-X-ENDLIST

表示PlayList的末尾了,它可以在PlayList中任意位置出現,但是隻能出現一個,格式如下:#EXT-X-ENDLIST

#EXT-X-MEDIA

被用來在PlayList中表示相同內容的不用語種/譯文的版本,比如可以通過使用3個這種tag表示3中不用語音的音頻,或者用2個這個tag表示不同角度的video在PlayLists中。這個標籤是獨立存在的,屬性包含:

URI:如果沒有,則表示這個tag描述的可選擇版本在主PlayList的EXT-X-STREAM-INF中存在;
TYPE:AUDIO and VIDEO;
GROUP-ID:具有相同ID的MEDIAtag,組成一組樣式;
LANGUAGE:確定使用的主要語言
NAME:人類可讀的語言的翻譯
DEFAULT:YES或是NO,默認是No,如果是YES,則客戶端會以這種選項來播放,除非用戶自己進行選擇。
AUTOSELECT:YES或是NO,默認是No,如果是YES,則客戶端會根據當前播放環境來進行選擇(用戶沒有根據自己偏好進行選擇的前提下)。

#EXT-X-STREAM-INF

指定一個包含多媒體信息的 media URI 作爲PlayList,一般做M3U8的嵌套使用,它只對緊跟後面的URI有效,格式如下:#EXT-X-STREAM-INF:有以下屬性:

BANDWIDTH:帶寬,必須有。

PROGRAM-ID:該值是一個十進制整數,惟一地標識一個在PlayList文件範圍內的特定的描述。一個PlayList 文件中可能包含多個有相同ID的此tag。

CODECS:不是必須的。

RESOLUTION:分辨率。

AUDIO:這個值必須和AUDIO類別的“EXT-X-MEDIA”標籤中“GROUP-ID”屬性值相匹配。

VIDEO:同上

參考文檔:

http://blog.csdn.net/jwzhangjie/article/details/9744027

http://www.xuebuyuan.com/1726264.html

Flask備忘

2016年8月更新
第一個Flask程序:

from flask import Flask
app = Flask(__name__)

@app.route(’/’)
def hello_world():
return ‘Hello, World!’

這段代碼幹了啥?
首先,我們導入了flask類。我們的wsgi應用裏面會有一個這樣的實例。然後我們創建一個這個類的實例。它的第一個參數就是應用的模塊或者包名。如果你只使用了一個模塊(就像這個例子中),你應該使用__name__因爲取決於它是作爲應用程序啓動的,還是作爲模塊導入的,名稱將有所不同(__name__對比於真實的導入名)。這是需要的所以Flask直到怎麼去查找模板,靜態文件等等。對於更多的信息,我們可以在Flask文檔中看。我們之後會使用route()這個解碼器去告訴Flask什麼樣的URL會觸發我們的函數。函數給出了個名字用來產生一些URL對於特定的函數,然後返回信息給用戶的瀏覽器。

Python備忘

2016年4月更新
Python學習課程表:
Alt

Slackware好久不見

2016年3月更新
當怎麼都搞不定的時候試下slackware一切豁然開朗(其實從內心來講Gentoo更能解決問題,但是Gentoo比我還變態!!!),回顧Slackware 1.00 的發佈公告:http://www.slackware.com/announce/1.0.php
Alt
作爲最古老的發行版,Slackware 一直非常有影響力。最早發佈的 SUSE Linux 基於 Slackware,而 Arch Linux 等發行版也可以視爲 Slackware 的哲學繼承者。雖然它的受歡迎程度可能已經下降多年 —— Debian 在 Reddit 子版塊上的用戶訂閱數是它的 10 倍。但 Slackware 仍然是一個擁有忠實粉絲的活躍項目,永遠在電腦上備一份Slackware。

Windows VS linux

2016年3月更新
linux是一個性能穩定的多用戶網絡操作系統,是一種開源電腦操作系統內核,它是一個用C語言寫成,符合POSIX標準的類Unix操作系統,而微軟的windows系統是受微軟版權保護,就是隻能微軟內部進行開發及修改。

總的來說,linux其實是指linux發行版本,而linux發行版本有很多,常見的有CentOS(紅帽系列)、debian、ubuntu(debian系列)等等。Linux以高安全,高穩定着稱,嚴格的權限機制使得它的安全性要比windows要高的多。

從安全性上來說,linux與windows也是有着很明顯的區別的,由於Linux是建立在Unix上,從一開始就是爲多用戶設計的操作系統,因此Linux文件管理一目瞭然,不像Windows那樣隱藏文件,Linux系統,幾乎沒有用戶或者應用可以訪問內核。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章