原创 特徵工程-特徵處理

1 特徵工程     特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用的過程。過程包含了特徵提取、特徵構建、特徵選擇等模塊。     特徵工程的目的是篩選出更好的特徵,獲取更好的訓練數據。因爲好的特徵具有

原创 MobileNet總結

MobileNet V1 MobileNet主要是針對移動端或者嵌入式設備優化的卷積。 特點: (1)放棄pooling直接採用stride = 2進行卷積運算。 (2)使用depthwise separable convolut

原创 Kenlm 使用

   總結工作中用到及學習的知識,也算自己的一個筆記。 環境準備 #公司環境爲Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum i

原创 TensorFlow session

本地計算,會話執行機制,創建session,然後連接server執行

原创 TensorFlow模塊介紹

TensorFlow 模塊 執行的時候,相當於拓撲排序,先把入度爲0的節點加入計算隊列,執行完後,更新節點的入度,如果有節點的入度爲零,則加入執行隊列。爲零可能多個,則可以並行執行。 (1)並行計算塊 (2)分佈式計算塊(

原创 Tensorflow房價預測案例

1 定義目標函數 2. 定義符合的損失函數 3.梯度下降,更新參數 阿爾法值不同,會影響模型,有可能陷入局部最優解 數據歸一化 使用Tensorflow開發流程 通常asix=0是按列,axis=1是按行來操作的;

原创 TensorFlow介紹和安裝使用

TensorFlow 1.後向傳播的發展,促進深度學習,梯度下降 2.TensorFlow 創作者 Jeff Dean Google Brain負責人 hadoop mapreduce,bigtable pf GPU TPU爲ten

原创 TensorFlow loss

經驗風險,

原创 專題機器學習和深度學習---1.python

最近很少寫文章,打算把以前的機器學習和深度學習寫一個專題,每天都要寫一點,寫在這裏打個卡,也是督促自己。 總結下python。 python是一個腳本語言。 常用的分析庫/包 (1)numpy :數組,矩陣 (2)scipy :

原创 spark 提交jar包優化

1.原因 在測試中,使用livy去運行spark程序,採用代碼片段的方式。但是應用在啓動的時候,會把本地的jar文件上傳到hdfs,然後再從hdfs分發到其它的運算節點,這個很影響性能。 可以在spark的配置文件spark-defa

原创 spark提交腳本,記錄相關信息

主要是記錄GC的相關內容,每個任務的最大重試次數。 /usr/lib/spark/bin/spark-submit --class com.centrality.kBC.kBCDriver --executor-cores 1 --e

原创 graphx-ConnectedComponents

1. ConnectedComponents返回一個與原圖結構相同的圖,只是頂點的屬性變爲連通圖中最小的頂點ID。 2.算法 grpahx源碼 import scala.reflect.ClassTag import org.ap

原创 graphx-最短路徑

1.最近在總結圖計算,把相關算法實現貼出來,坐下總結,作爲督促。算法實現多數是graphx。 package org.apache.spark.graphx.algorithms import org.apache.spark.{S

原创 graphx-pagerank

1.算法描述 pagerank算法裏面,要設置一個隨機重置概率,主要爲了解決頂點自循環和頂點沒有出邊造成的問題。 2.代碼 import org.apache.spark.graphx.GraphLoader import org

原创 graphx-lpa

1.LPA 標籤傳播算法,主要是頂點計算函數,選擇label標籤最多的項,更新頂點的屬性。根據相應的業務,可以修改graphx的源碼進行修改,改爲我們業務中需要的標籤值。由於LPA很難保證收斂,所以要設定迭代次數。 2.代碼 obje