原创 spark解析json數據

1. json數據格式–定義 JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式,易於人閱讀和編寫。 2.json數據格式解編碼(2.1,2.2兩種方法) 2.1 json函數實現解編碼:

原创 零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

零基礎入門數據挖掘 - 二手車交易價格預測-數據探索 賽題理解 賽題以二手車市場爲背景,要求根據所給的二手車預測二手汽車的交易價格,這是一個典型的迴歸問題 熟悉數據及評價標準 一 、賽題數據 該數據來自某交易平臺的二手車

原创 工作中做的一個數據交付項目總結

標題項目的形式 依託第三方數據源,以及公司爬蟲數據、政府合作數據,按甲方的需求字典清洗字段並進行定時推送。 項目的難點 (1)數據清洗,處理 (2)數據更新考慮到外部第三方的數據的問題,做定時輪詢取數據做處理—通過接口; (3)數

原创 hive架構介紹、SQL引擎與NoSQL引擎的對比

hive架構介紹、SQL引擎與NoSQL引擎的對比什麼是hive?什麼是數據倉庫?數據倉庫的構建過程OLTP應用和OLAP應用數據倉庫中的數據模型什麼是hiveHIVE的體系結構hive的體系結構之元數據hive的體系結構之HQL

原创 pyspark程序運行報錯:no module named XXX(本地pycharm沒問題而線上cmd下運行有此問題)

(一)場景問題 1)我在本地pycharm項目分支下運行文件,運行方式是:先cd到項目根目錄,然後再運行本地提交命令;現在把該部分代碼打包上傳到線上,直接在命令行運行,就會報no module named XXX錯誤; 本地目錄:

原创 箱型圖的數學意義

四分位數 四分位數(英語:Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。 概念 第一四分位數( {\displaystyle Q_{1}} Q_{1}),又

原创 Python多進程Pool與Process全局變量區別,以及用Process實現Pool--part2

(1) 1.Pool使用全局變量的問題 問題簡單描述就是無法使用可變的全局變量(比如for循環),可見如下代碼示例: from multiprocessing import Pool # def multi_task_1():

原创 企業風險預測開發覆盤總結

企業風險預測開發覆盤總結 一、背景介紹 在企業信用領域,每個企業每天都在發生着改變,這些改變有可能使得企業越來越好,也有可能使得企業面臨各種風險。面對企業的百萬級運營數據,從中分析出企業的風險信息對企業運營的決策和投資者都是比較好

原创 XGBOOST集成樹模型的原理梳理

0 前言 xgboost本身是集成樹模型,在瞭解其原理之前,先對樹模型的機器學習基礎知識做一定介紹。 監督學習元素 (1)學習模型(即已知x,求出y的模型表達式) 比如:線性模型; 邏輯迴歸模型; (2)參數 從數據當中學習得到模

原创 我眼中的高曉松

我眼中的高曉松 高曉松是一個學富五車的人,知識儲備量很驚人,他自己說除了物理和生物這兩領域他是門外漢,其他領域他都有涉及,出於對他個人的作品及一些節目的瞭解,頗喜歡他這樣一位名人,於是就過去他的經歷及身份做了進一步的瞭解,主要也是

原创 大數據開發面試的總結-第一篇

大數據開發面試 前言 基於面大數據開發的遇到的一些問題,以及圍繞這些問題展開的一些知識點的準備,對大數據開發崗的面試做了一個梳理。努力做一個知識開源的互聯網民工,現在階段還是一個被別人挑選的人,向前進吧。 sql/hql/spar

原创 大數據開發面試的總結-第二篇

(1)反轉二叉樹的實現; 可用遞歸實現,代碼包含遞歸,根節點作爲遍歷條件,左右子節點分別進行兌換。 class Node(object): #定義樹的結點 def __init__(self,

原创 樹模型算法

目錄一級目錄一、決策樹算法二、隨機森林模型三、梯度提升樹 一級目錄 一、決策樹算法 構建決策樹時通常採用自上而下的方法,在每一步選擇一個最好的屬性來分裂。“最好” 的定義是使得子節點中的訓練集儘量的純(信息增益最小,其中信息增益=

原创 連接10服務器//hadoop顯示ConnectionrRefused怎麼辦?

參考:https://zhidao.baidu.com/question/1366015836087408219.html 輸入hadoop fs -ls想查看hadoop上的文件卻突然連接不上報如下錯誤: ls: Call Fr

原创 2019-03-21 python導入包以及Python程序執行順序理解

http://codingpy.com/article/python-import-101/ https://segmentfault.com/a/1190000009842139 (一)Python模塊前面from…import