原创 Wordpress地址自動改爲127.0.0.1的解決辦法

在wordpress的控制檯這樣設置就好了

原创 Hadoop生態之 Spark, Pyspark

Spark 基於內存的迭代計算框架,適合實時統計分析的計算需求 Spark是一個類似於MapReduce的分佈式計算框架,其核心是彈性分佈式數據集,提供了比MapReduce更豐富的模型,可以快速在內存中對數據集進行多次迭代,以支持

原创 PySpark

1.PySpark的搭建 https://blog.csdn.net/qq_36330643/article/details/78429109 PySpark 是 Spark 爲 Python 開發者提供的 API ,位於 $SPAR

原创 Hadoop生態之數據庫HBase的本地安裝、基本操作以及Hbase JAVA API

What? Hbase HBase是一個分佈式的,面向列的開源數據庫,對應於Goole Bigtable, 適合於非結構化數據存儲的數據庫。 HBase基於列,在需要實時讀寫、隨機訪問超大規模數據集時,可以使用HBase。 上圖描述

原创 python爬蟲的基本原理以及scrapy框架的使用

正則表達式基礎 正則表達式用於處理字符串,擁有自己獨立的語法以及一個獨立的處理引擎。 不同提供正則表達式的語言里正則表達式的語法都式一樣。 . 和 * + . 匹配任意一個字符 *匹配0或多次前面出現的字符 .* 表示0或無限次的

原创 Windows下Python的 Path問題解決

1.Python Path問題的解決 今天準備用python寫下爬蟲,發現自己的python路徑沒有,在cmd中打python,顯示如下: 但是我安裝了python的 打開我的python,在python交互式命令行中輸入以下兩行命

原创 hadoop之mapreduce實例——求平均值、去重

求平均數是MapReduce比較常見的算法,求平均數的算法也比較簡單,一種思路是Map端讀取數據,在數據輸入到Reduce之前先經過shuffle,將map函數輸出的key值相同的所有的value值形成一個集合value-list,然

原创 hadoop常見操作以及簡單的Hadoop javaAPI實現

HDFS操作 之前我們對hdfs的操作主要是通過在linux命令行裏進行的,而在實際的應用中,爲了實現本地與HDFS 的文件傳輸,我們主要藉助於eclipse的開發環境開發的javaAPI來實現對遠程HDFS的文件創建,上傳,下載和

原创 數據採集----網絡爬蟲(一)

網絡爬蟲(Web Crawler/Spider) 數據採集的主要方式 按照一定規則,自動抓取萬維網信息的程序或者腳本 部分或者全部抽取抓取到的信息,使數據進一步結構化 合法性–Robots協議 深度與廣度優先 * 靜態和動態網頁爬蟲

原创 CentOS7安裝tomcat探索

安裝tomcat前需不需要安裝JDK? 當有請求時,tomcat會自動將jsp裏面的java程序部分提取出來,調用jdk將java程序編譯成class,然後再執行這個class.你可以到tomcat的work目錄下看看,你可以找到從j

原创 數據科學(二)-----數據預處理

缺失值處理和離羣值檢測 數據缺失的原因 1.採集過程數據缺失 2.網絡傳輸錯誤 3.數據整合過程中引入缺失值 解決方法 刪除法 簡單粗暴。刪除特徵/樣本。 缺點:破壞了信息的完整,造成資源浪費 均值填補 使用非缺失值的平均值(數值型)

原创 數據可視化Django(二)------Django視圖與網址

URLs and views 創建一個項目 django-admin startproject project_name 創建一個APP django-admin startapp app_name 添加app到項目setting.p

原创 數據可視化Django(一)------認識安裝Django

Django 安裝 在linux系統中安裝Django pip install Django 此時,可以進入python環境,再終端中輸入python,然後敲入以下代碼,可以查看django版本 管理工具Django-ad

原创 Hadoop HDFS原理---分佈式文件系統

HDFS工作原理 NameNode和Sencondary NameNode節點通過HTTP GET(N->S)和POST(S->N)發送和接受數據 體系結構,主從(master/slave) 存儲原理:冗餘數據保存(多副本)

原创 數據科學導論

數據科學 用數據的方法來研究科學 生物信息,天體信息,數字地球等 用科學的方法來研究數據 統計學,機器學習,數據挖掘等 數據分析 數據類型 簡單劃分大致分爲以下三部分: 數據的數學結構 主要困難 1.數據量大 2.數據維數高(