原创 GAN的三重理解境界

在對GAN的學習和思考過程中,我發現我不僅學習到了一種有效的生成模型,而且它全面地促進了我對各種模型各方面的理解,比如模型的優化和理解視角、正則項的意義、損失函數與概率分佈的聯繫、概率推斷等等。GAN不單單是一個“造假的玩具”,而是具有深

原创 高併發架構演進之路(下)——一體化架構到微服務

一體化機構問題: 1、在技術層面上,數據庫連接數可能成爲系統的瓶頸;資源極限,擴展困難 2、繼續演進研發成本、共同成本高,業務耦合大,查問題複雜,團隊管理困難 3、運維成本大,編譯、測試上線複雜 解決方案: 按照業務做橫向拆分的方式,解決

原创 python+Potrace實現自動作畫——程序員的浪漫

連續看了快一個月的spark源碼,喫飯腦子裏蹦出來的都是rpc私有協議、DAGschedule人、TASKscheduler、調度、 資源申請.....總之一句話就是看的快吐了,該換換腦子再做打算。那怎麼換腦子呢,做些啥好玩有意思的事呢;

原创 支付寶和bilibilli APP推薦的一些思考

螞蟻金服、b站面試經過五官六將的考驗總算都推進到最後一輪。最後一關往往都是老大面試,老大基本會比較關心計算能爲公司業績作出什麼貢獻,所以會問到不少業務場景、指標、創新的問題。每個公司slogan不一樣,但作爲一個商業公司盈利的本質是不會太

原创 高併發系統演進之路(上)--基礎篇

高併發、高可用、可擴展是互聯網技術井噴後軟件系統演進的基本要求。 性能指標:度量性能的指標是系統接口的響應時間:平均值、最大值、分位數 高併發下的性能優化: 1)提高系統的處理核心數,     但隨着併發進程數的增加,並行的任務對於系統資

原创 最小熵原理(四):“物以類聚”之從圖書館到詞向量

從第一篇看下來到這裏,我們知道所謂“最小熵原理”就是致力於降低學習成本,試圖用最小的成本完成同樣的事情。所以整個系列就是一個“偷懶攻略”。那偷懶的祕訣是什麼呢?答案是“套路”,所以本系列又稱爲“套路寶典”。 本篇我們介紹圖書館裏邊的套

原创 智能問答系統一些思考——四類方法

智能問答系統是現代信息技術系統不可或缺的一個部分,然因問答系統的複雜性,智能問答系統一直未能取得很好的作用。本文將嘗試從問答系統的四個方向做概要性總結。問答系統目前實現的方式主要包括: 1)知識圖譜問答:基於語義的方法、基於答案排序的方法

原创 F-GAN更高一層看GAN

今天介紹一篇比較經典的工作,作者命名爲f-GAN,他在文章中給出了通過一般的ff散度來構造一般的GAN的方案。可以毫不誇張地說,這論文就是一個GAN模型的“生產車間”,它一般化的囊括了很多GAN變種,並且可以啓發我們快速地構建新的GAN變

原创 python中依賴庫文件管理

許多Python項目中都包含了requirements.txt文件,該文件記錄了當前程序的所有依賴包及其精確版本號。 生成requirement.txt文件 pip freeze > requirements.txt 安裝requirem

原创 變分自編碼器——從全概率角度解讀

用更一般的、概率化的語言來把VAE說清楚。事實上,這種思考也能回答通俗理解中無法解答的問題,比如重構損失用MSE好還是交叉熵好、重構損失和KL損失應該怎麼平衡,等等。 準備 # 在進入對VAE的描述之前,我覺得有必要把一些概念性的內容講一

原创 Spark2源碼閱讀——內存分配

Spark 作爲一個基於內存的分佈式計算引擎,其內存管理模塊在整個系統中扮演着非常重要的角色。理解 Spark 內存管理的基本原理,有助於更好地開發 Spark 應用程序和進行性能調優。本文旨在梳理出 Spark 內存管理的脈絡,拋磚引玉

原创 O-GAN引入正交分解實現GAN自編碼

本文來給大家分享一下筆者最近的一個工作:通過簡單地修改原來的GAN模型,就可以讓判別器變成一個編碼器,從而讓GAN同時具備生成能力和編碼能力,並且幾乎不會增加訓練成本。這個新模型被稱爲O-GAN(正交GAN,即Orthogonal Gen

原创 用變分推斷統一理解生成模型(VAE、GAN、AAE、ALI)隱變量的藝術

前言:我小學開始就喜歡純數學,後來也喜歡上物理,還學習過一段時間的理論物理,直到本科畢業時,我才慢慢進入機器學習領域。所以,哪怕在機器學習領域中,我的研究習慣還保留着數學和物理的風格:企圖從最少的原理出發,理解、推導儘可能多的東西。這篇

原创 spark源碼閱讀——搭建和源碼工程師一樣的開發環境

  閱讀好的開源項目是最好的學習code的方法,在一個大型項目中會涉及到軟件工程的方方面面。 項目代碼作爲最終的落地物質,其中必然會留下很多頂尖工程師、架構師、設計團隊思考的痕跡; 如果從這個層面去看一個開源項目,其實至少包括三個方面:

原创 Spark2源碼分析系列——RPC(1)

一. Spark rpc概述 首先說明RPC,引用百度百科: RPC(Remote Procedure Call)—遠程過程調用,它是一種通過網絡從遠程計算機程序上請求服務,而不需要了解底層網絡技術的協議。RPC協議假定某些傳輸協議的存在