台部落RainyRainbow

在wordpress的控制檯這樣設置就好了

2018-12-07 18:45:18

Spark 基於內存的迭代計算框架，適合實時統計分析的計算需求 Spark是一個類似於MapReduce的分佈式計算框架，其核心是彈性分佈式數據集，提供了比MapReduce更豐富的模型，可以快速在內存中對數據集進行多次迭代，以支持

2018-12-01 00:10:45

1.PySpark的搭建 https://blog.csdn.net/qq_36330643/article/details/78429109 PySpark 是 Spark 爲 Python 開發者提供的 API ，位於 $SPAR

2018-12-01 00:10:44

What？ Hbase HBase是一個分佈式的，面向列的開源數據庫，對應於Goole Bigtable，適合於非結構化數據存儲的數據庫。 HBase基於列，在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。上圖描述

2018-11-28 13:13:23

正則表達式基礎正則表達式用於處理字符串，擁有自己獨立的語法以及一個獨立的處理引擎。不同提供正則表達式的語言里正則表達式的語法都式一樣。 . 和 * + . 匹配任意一個字符 *匹配0或多次前面出現的字符 .* 表示0或無限次的

2018-11-28 13:13:23

1.Python Path問題的解決今天準備用python寫下爬蟲，發現自己的python路徑沒有，在cmd中打python，顯示如下：但是我安裝了python的打開我的python，在python交互式命令行中輸入以下兩行命

2018-11-28 13:13:23

求平均數是MapReduce比較常見的算法，求平均數的算法也比較簡單，一種思路是Map端讀取數據，在數據輸入到Reduce之前先經過shuffle，將map函數輸出的key值相同的所有的value值形成一個集合value-list，然

2018-11-26 03:43:41

HDFS操作之前我們對hdfs的操作主要是通過在linux命令行裏進行的，而在實際的應用中，爲了實現本地與HDFS 的文件傳輸，我們主要藉助於eclipse的開發環境開發的javaAPI來實現對遠程HDFS的文件創建，上傳，下載和

2018-11-26 03:43:41

網絡爬蟲（Web Crawler/Spider）數據採集的主要方式按照一定規則，自動抓取萬維網信息的程序或者腳本部分或者全部抽取抓取到的信息，使數據進一步結構化合法性–Robots協議深度與廣度優先 * 靜態和動態網頁爬蟲

2018-11-22 03:38:58

安裝tomcat前需不需要安裝JDK？當有請求時,tomcat會自動將jsp裏面的java程序部分提取出來,調用jdk將java程序編譯成class,然後再執行這個class.你可以到tomcat的work目錄下看看,你可以找到從j

2018-11-21 03:43:19

缺失值處理和離羣值檢測數據缺失的原因 1.採集過程數據缺失 2.網絡傳輸錯誤 3.數據整合過程中引入缺失值解決方法刪除法簡單粗暴。刪除特徵/樣本。缺點：破壞了信息的完整，造成資源浪費均值填補使用非缺失值的平均值（數值型）

2018-11-21 03:43:19

URLs and views 創建一個項目 django-admin startproject project_name 創建一個APP django-admin startapp app_name 添加app到項目setting.p

2018-11-21 03:43:19

Django 安裝在linux系統中安裝Django pip install Django 此時，可以進入python環境，再終端中輸入python,然後敲入以下代碼，可以查看django版本管理工具Django-ad

2018-11-20 03:59:17

HDFS工作原理 NameNode和Sencondary NameNode節點通過HTTP GET（N->S）和POST(S->N)發送和接受數據體系結構，主從（master/slave）存儲原理：冗餘數據保存（多副本）

2018-11-20 03:59:07

數據科學用數據的方法來研究科學生物信息，天體信息，數字地球等用科學的方法來研究數據統計學，機器學習，數據挖掘等數據分析數據類型簡單劃分大致分爲以下三部分：數據的數學結構主要困難 1.數據量大 2.數據維數高（

2018-11-20 03:59:07