原创 讀書筆記:A Philosophy of Software Design (一) 原

今天一位同事在斯坦福的博士生導師John Ousterhout (注,Tcl語言的設計者)來公司做了他的新書《A Philosophy of Software Design》的演講,介紹了他對於軟件設計的思考。這裏我把本書的讀書筆記和心得分

原创 大數據系統數據採集產品的架構分析 頂 原 薦

任何完整的大數據平臺,一般包括以下的幾個過程: 數據採集 數據存儲 數據處理 數據展現(可視化,報表和監控) 其中,數據採集是所有數據系統必不可少的,隨着大數據越來越被重視,數據採集的挑戰也變的尤爲突出。這其中包括: 數據源多種多樣

原创 大數據搜索選開源還是商業軟件?ElasticSearch 對比 Splunk 頂 原 薦

本文就架構,功能,產品線,概念等方面就ElasticSearch和Splunk做了一下全方位的對比,希望能夠大家在制定大數據搜索方案的時候有所幫助。 簡介 ElasticSearch (1)(2)是一個基於Lucene的開源搜索服務。它提

原创 談談機器學習模型的部署 原 薦

隨着機器學習的廣泛應用,如何高效的把訓練好的機器學習的模型部署到生產環境,正在被越來越多的工具所支持。我們今天就來看一看不同的工具是如何解決這個問題的。 上圖的過程是一個數據科學項目所要經歷的典型的過程。從數據採集開始,經歷數據分析,數據

原创 容器集羣管理平臺的比較 頂 原 薦

容器化和微服務是當前最熱話題,不久之前,筆者(據說因爲現在都不用筆了,“筆者”的稱謂已經不合適了,因爲輸入用鍵盤,叫“鍵人”更爲合適)參加QCon上海一個微服務監控的Session,場面爆棚,我不得不在擁擠的過道聽完了整個session。隨

原创 輕鬆擴展你的機器學習能力 : Kubeflow 原 薦

提起機器學習,尤其是深度學習,大家可能會對諸如Tensorflow,Pytorch,Caffee的工具耳熟能詳。但其實在實際的機器學習的生命週期中,訓練模型(上述工具主要解決的問題)只是整個機器學習生命週期的很小一部分。 數據如何準備?

原创 在瀏覽器中進行深度學習:TensorFlow.js (七)遞歸神經網絡 (RNN) 原 薦

介紹 上一篇博客我們討論了CNN,卷積神經網絡。CNN廣泛應用於圖像相關的深度學習場景中。然而CNN也有一些限制: 很難應用於序列數據 輸入數據和輸出數據都是固定長度 不理解上下文 這些問題就可以由RNN來處理了。 神經網絡除了CNN

原创 使用Python進行併發編程 頂 原 薦

讓計算機程序併發的運行是一個經常被討論的話題,今天我想討論一下Python下的各種併發方式。 併發方式 線程(Thread) 多線程幾乎是每一個程序猿在使用每一種語言時都會首先想到用於解決併發的工具(JS程序員請回避),使用多線程可以有

原创 用500行純前端代碼在瀏覽器中構建一個Tableau 原 薦

在Gartner最新的對商務智能軟件的專業分析報告中,Tableau持續領跑。Microsoft因爲PowerBI表現出色也處於領導者象限。而昔日的領導者像SAP,SAS,IBM,MicroStrategy等逐漸被拉開了差距。 Table

原创 讀書筆記:A Philosophy of Software Design (二) 原

接着上次的分享 設計兩次 這裏“設計兩次”的意思是無論設計一個類,模塊還是功能,在設計的時候仔細思考,除了當前的方案,還有那些其它的選擇。在衆多設計中比較,列出各自的優缺點,然後選出最佳方案。就是對於設計方案,都有兩個或者兩個以上的選擇。

原创 機器學習管理平臺 MLFlow 原 薦

最近工作很忙,博客一直都沒有更新。抽時間給大家介紹一下Databrick開源的機器學習管理平臺-MLFlow。 談起Databrick,相信即使是不熟悉機器學習和大數據的工程溼們也都有所瞭解,它由Spark的創始人開辦的,主要爲用戶提供在

原创 在瀏覽器中進行深度學習:TensorFlow.js (六)構建一個卷積網絡 Convolutional Network 原 薦

在上一篇中,我們介紹了了用TensorflowJS構建一個神經網絡,然後用該模型來進行手寫MINST數據的識別。和之前的基本模型比起來,模型的準確率上升的似乎不是很大。(在我的例子中,驗證部分比較簡單,只是一個大致的統計)甚至有些情況下,如

原创 Python 與 Javascript 之比較 頂 原 薦

最近由於工作的需要開始開發一些Python的東西,由於之前一直在使用Javascript,所以會不自覺的使用一些Javascript的概念,語法什麼的,經常掉到坑裏。我覺得對於從Javascript轉到Python,有必要總結一下它們之間的

原创 Pyflow : 一個基於工作流的編程模型(Flow Based Programing) 工具 原 薦

Flow Based Programing 是由J. Paul Rodker Morrison在很早以前提出的一種編程範式。 維基百科對FBP的定義如下: In computer programming, flow-based progr

原创 基於容器應用設計的原則,模式和反模式 原 薦

容器和容器編排(Kubernetes)的廣泛使用,讓我們可以輕鬆的構建基於微服務的“雲原生”(Cloud Native)的應用。容器成爲了雲時代的新的編程單元,類似面向對象概念下的對象,J2EE中的組件或者函數式編程中的函數。 在面向對象時