原创 Spark性能調優——擴展篇

本文要解決的問題: 從更深層次考慮,對Spark進行性能調優。 目的 繼基礎篇分析了開發調優與資源調優之後,本文作爲拓展篇,將深入分析數據傾斜調優與shuffle調優,以解決更加棘手的性能問題。 數據傾斜調優 簡述 有時候,

原创 TensorFlow找不到models庫原因及解決方案

原因:1.0版本以後models模塊已經刪除掉了,都整合到examples下面解決方法:1、安裝低版本的TensorFlow2、到我的網盤下載models庫 鏈接:https://pan.baidu.com/s/1595QnRri21TO

原创 Spark性能調優——基礎篇

本文要解決的問題: Spark在使用過程中不可避免的需要進行一系列的性能優化,本文就Spark性能調優的基礎部分進行總結和歸納(開發調優和資源調優),參考了不少前輩的文章,在此非常感謝。 目的 在大數據的領域,Spark已經成爲了

原创 Spark報錯——AnnotatedConnectException拒絕連接

1、問題描述 在運行spark任務時候報錯如下: 17/11/03 10:27:54 ERROR ShuffleBlockFetcherIterator: Failed to get block(s) from 192.168.1

原创 fastjson 輸出double類型強制轉爲科學計數法問題

在json輸出的時候,當double類型的數值過大或者過小的時候,往會在內部被強制轉化爲科學計數法形式輸出,如果不需要科學計數法,則可以通過使用BigDecimal類來表示double類型,代碼如下: Java版本: impo

原创 Markdown基礎

1 基礎語法 1.1 標題 Markdown支持6種級別的標題,對應html標籤 h1 ~ h6 例如: # 這是一級標題 ## 這是二級標題 ### 這是三級標題 #### 這是四級標題 ##### 這是五級標題 ######

原创 複雜網絡在信用風險中的實踐

1. 傳統方法 在信貸領域主要有兩種風險: 欺詐風險: 借款人的目的就是騙貸。 信用風險: 又稱違約風險,是借款人因各種原因,不願或無力履行合同條件而構成違約,致使平臺遭受損失。 ​ 針對信用風險,需要對借款人的財務狀況、還款

原创 利用 Pytorch-BigGraph 從知識圖中提取知識詳解

機器學習使我們能夠訓練一個模型,該模型可以將數據行轉換爲標籤,從而使相似的數據行映射到相似或相同的標籤。 以我們爲電子郵件構建垃圾郵件過濾器爲例。我們有很多電子郵件,其中一些被標記爲垃圾郵件,一些被歸類到收件箱。我們可以建立一個模型去學習

原创 Python中fileinput模塊介紹

原文出處:http://blog.csdn.net/jerry_1126/article/details/41926407 fileinput模塊可以對一個或多個文件中的內容進行迭代、遍歷等操作。 該模塊的input()

原创 微信Mac版下載

之前在baidu搜到的鏈接都是要到App Store下載,個人很討厭App Store,這裏共享一下,給有需要的朋友 鏈接: https://pan.baidu.com/s/1o8oR8XO 密碼: 9y4g 點贊

原创 HBase之BlockCache數據讀取

HBase上Regionserver的內存分爲兩個部分,一部分作爲Memstore,主要用來寫;另外一部分作爲BlockCache,主要用於讀數據;上面一篇文章已經介紹過Memstore,這裏主要介紹讀取數據的部分,即BlockC

原创 GraphX挖掘極大團

設計思路: 聚合節點的所有鄰居 求邊上節點的共同鄰居,並通過共同鄰居生成極大團的ID,發送至源節點和目標節點 獲取收到極大團ID的節點 代碼如下: package mu.atlas.graph.community impor

原创 關於tensorflow 中 placeholder 與 reshape的一點坑

轉自:https://blog.csdn.net/sky_asher/article/details/79717620 在搭LeNet-5 模型時,在卷積層的輸出到全連接層時,使用了reshape將四維的矩陣轉化維2維矩陣時,發生了錯誤:

原创 知識圖譜---初識本體

一、什麼是本體 l本體論(Ontology)和本體(ontology)在英文中的表示並不完全一樣,它們一個用大寫的“O”開頭,另一個用小寫的“o”開頭。本體論這個術語誕生於17世紀,派生於希臘語的onto和logia,是一個哲學的分支。從

原创 Spark Caused by: java.io.NotSerializableException 序列化異常踩過的坑

最近有需求需要在driver端創建好類實例,然後在rdd裏面調用,但是使用過程中發現 Caused by: java.io.NotSerializableException,即序列化異常,通過查處網上資料發現是構建的類沒有繼承Seri