原创 分層架構

互聯網軟件架構分層體系結構 架構師之路 單體服務: 計算機基礎知識,比如編程語言、庫、數據結構、算法、軟件工程、編譯原理、操作系統相關知識是構建每一層的通用基礎知識,每一層可以認爲是一個進程,由基本的編程語言、庫和框架構建而成,層與

原创 RESTful總結

RESTful 前端多樣化,前後端分離,統一可讀的API至關重要。每個網址代表一種資源,RESTful是一種面向對象/資源的思維,約束系統間互聯互通時遵循的標準。 HTTP & SQL 根據HTTP規範,HTTP Method大寫

原创 我的2018

工作 到了2018年,在前東家已經服務了4年了,這四年,每天的工作是大數據平臺相關的,因此對大數據技術方向有了比較全面深刻的體會,以前認爲寫代碼就是堆一行行代碼,現如今至少有了一些系統性的思維,也因爲大數據,從以前搞C++徹底轉型Ja

原创 hyspider之智能運維監控

scrapyd 藉助scrapyd,可以通過http請求遠程調度爬蟲。 #scrapy.cfg中加入deploy配置 [deploy] url = http://localhost:6800/ project = hyspider v

原创 hyspider之貓眼價格解密

貓眼價格信息使用了woff字體,每次請求都會返回解析當前頁面字體使用的woff文件,並且每次響應中woff文件都不同。 web平臺返回woff文件地址: @font-face { font-family: stonefont;

原创 hyspider之價格爬取

價格是比價中最重要地信息,價格信息量大,並且是不斷變化的,儘可能準確快速地抓取各個渠道電影及優惠信息是比價軟件的核心競爭力。 爬取時分城市爬取,先從DB中加載城市cinema,然後通過cinema_id直接獲取影院所有價格信息,過程類

原创 hyspider之影院爬取

城市信息抓取完成後,就可以基於city_id抓取影院信息了。由於影院信息變化相當緩慢,並且可以選擇性的抓取某些城市,因此將city_id作爲參數傳遞給影院爬蟲,爬取影院詳細地址後利用baidu map提供的地址解析api獲取影院的經緯

原创 hyspider之城市爬取

影院信息在各渠道都是按城市分類,通過城市id分頁查詢,因此在抓取影院前先抓取城市信息,城市信息基本不變,只需抓取一次即可。 貓眼 沒有從貓眼找到直接獲取城市列表的API, 所以基於selenium模擬chrome訪問貓眼首頁,獲取首頁

原创 hyspider之電影爬取

hymp的主要功能是電影票多渠道比價,比價時需定位到同一影院同一電影,因此需要將所有渠道電影、影院爬取並匹配起來,爬取時優先選擇便於爬取的終端平臺,一般信息h5/web平臺相對於app更易獲取。 hyspider源碼地址:https:

原创 惠電影后臺

hyserver爲hymp提供後臺服務,使用Django開發,分成三個app(hyserver/cinema/movie) django-admin startproject hyserver # 生成項目 python mana

原创 MySQL安裝

windows上安裝 1、下載安裝包解壓到MYSQLHOME,切換到MYSQL_HOME,切換到MYSQLH​OME,切換到MYSQL_HOME目錄 2、mysqld --initialize-insecure: 初始化data-di

原创 惠電影小程序

hymp 惠電影小程序 掃描體驗 mp核心功能分成三個Tab頁: 電影列表,顯示正在熱映和即將上映的電影 影院列表,根據用戶的位置由近及遠顯示影院列表 個人中心,用戶推薦、反饋入口 電影列表 電影列表包含頭部和主體兩部分,頭部是

原创 我的全棧之路

什麼是全棧 如果一個人能夠獨立開發一個系統,包括前端和後臺,則可以說是全棧工程師。前端主要用來做展示,涉及的技術是HTML/CSS/JS等,具體細節差異則跟各個終端有關,比如Android/IOS/小程序等都有具體特定的API和框架規

原创 Kafka介紹

kafka物理結構 一個kafka集羣由多個broker組成 每個topic由多個partition組成,partition均勻分佈在broker中,partition中存儲了具體的數據,在broker的{log.dirs}下每個物

原创 windows下Hadoop報錯null\bin\winutils.exe

在windows環境下hadoop或flink時,可能會出現如下異常: 2018-09-30 17:45:59,517 ERROR org.apache.hadoop.util.Shell