原创 基於OpenCV與 ImageAI 的動漫人物識別

在從二次元畢業之前,我們經常都會看到"這個人物是誰?哪個番的?"之類的問題,在學習圖像識別的過程中,實現了一個動漫人物的識別的例子,直接使用現有的兩個成熟的工具OpenCV與 ImageAI通過人物頭像來進行動漫人物的識別,作爲一個入門的

原创 兩行代碼搞定python OCR圖像文字識別

目前OCR主要依賴幾個低層庫,本博客採用Tesseract,Tesseract是由Google維護的開源OCR。本博客在windows環境進行,linux環境同理。 1、安裝Tesseract: windows下Tesseract的安裝

原创 Centos7.2 安裝Hadoop、Hbase、Elasticsearch與JanusGraph並配置Http訪問

JanusGraph是分佈式圖數據庫,前身是Titan。JanusGraph是Titan的一個fork。Titan項目創建於2012年,於2016年停止維護,2017年,JanusGraph項目fork了Titan,直至今天。所以建議大家

原创 HDP 2.6.3.0 ambari安裝 :Cannot match package for regexp name XX_${stack_version}錯誤

博主在Centos7.5 上進行HDP 2.6.3.0的安裝,在安裝過程中: 報錯: :Cannot match package for regexp name xx_${stack_version} 如圖: 博主這裏以hbase爲例,

原创 Spark MLPC神經網絡應用實例(scala)

在Spark中,目前包括的神經網絡方面的算法僅有MLPC,即MultilayerPerceptronClassifier(多層感知分類器)。它在MLlib的Classification and regression(分類與迴歸)中。MLP

原创 Spark特徵工程

按照慣例,先附上業界那句名言“數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已”。特徵工程是指用一系列工程化的方式從原始數據中篩選出更好的數據特徵,以提升模型的訓練效果。簡而言之,就是爲算法提供更友好的輸入,以最大化地發揮

原创 基於圖數據庫的無限級菜單存儲

無限級菜單或者說無限級分類,在實際項目中比較實用,目前比較主流的設計是通過關係型數據庫進行存儲,通常一個表中包含id,content,fid三個字段,content是菜單的名稱,id是菜單的id,而fid是該菜單的上一級菜單,一般fid爲

原创 spark Word2Vec+LSH相似文本推薦(scala)

在上一篇博客,我們使用spark CountVectorizer與IDF進行了關鍵詞提取,博客地址: spark CountVectorizer+IDF提取中文關鍵詞(scala) 本篇博客在上一篇博客的基礎上,介紹如何根據關鍵詞獲取文檔

原创 RAP接口管理工具

RAP是阿里開源的接口管理工具,主要包括開發團隊/項目的管理,編寫API接口,MOCK服務,接口測試,生成接口文檔等功能。並且RAP是可以在本地環境中進行部署使用的(linux,windows皆可),這裏也建議本地部署,第一不受網絡限制,

原创 thinkphp上傳讀取帶中文名的excel

windows phpstudy環境下進行開發一、使用thinkphp 3.2.3的Upload上傳文件,帶中文名的文件保存到後臺後是亂碼,解決方法:ThinkPHP\Library\Think\Upload\Driver\local.c

原创 php neo4j圖數據庫查詢與遍歷

在上一篇博客中,介紹了php連接neo4j圖數據庫以及基本使用,博客地址: https://blog.csdn.net/u013090676/article/details/81435944 本文繼續介紹php 對neo4j圖數據庫進行查

原创 今天你夠“敏捷”嗎?

         從第一個項目開始,就一直在被敏捷,然而敏捷開發到底是什麼,應該怎麼做?其實也沒有一個真正的認識。直到後來開始系統地學習項目管理,再結合實際開發經驗,纔算有了一知半解。本文是筆者對學習和實踐敏捷開發的一個總結,由於個人能力

原创 php連接neo4j圖數據庫以及基本使用

閱讀本博客前,請熟悉neo4j圖數據庫以及Cypher。 php連接neo4j圖數據庫的驅動下載地址(無下載積分可留言郵箱): https://download.csdn.net/download/u013090676/10585050

原创 spark CountVectorizer+IDF提取中文關鍵詞(scala)

在提取關鍵詞中,TF-IDF是比較常用的算法,spark mlib中也提供了TF以及IDF的方法,但是由於spark提供的TF算法是不可逆的,即無法獲取TF的結果對應的原句子的文字,所以需要採用 CountVectorizer。提取關鍵詞

原创 spark udf傳入複雜結構參數

筆者在使用LSH 獲取相似文本時,遇到返回的Dataframe的結果比較複雜,如下:現在想使用UDF函數處理datasetA和datasetB的內容,但是由於數據結構複雜,無法直接寫參數,所以需要使用Row,代碼如下: va