原创 大數據(一)--------環境搭建

一、安裝虛擬機及Linux         虛擬機我裝的VMware14,Linux我裝的CentOS8,具體安裝的過程網上教程很多,我就不再贅述了,裝的過程中遇到的問題我都彙總在了另一篇文章中”大數據學習遇到的那些坑“。      

原创 Failed to load class "org.slf4j.impl.StaticLoggerBinder" spark

問題描述:         在使用spark-shell 時,開啓的是本地模式,執行加載數據的命令報錯 scala> val usersDF = spark.read.load("/opt/module/datas/users.parq

原创 jupyter將默認路徑更換爲自定義路徑

初次使用anaconda中自帶的jupyter,打開後默認工作路徑爲C:\Users\Admin(自己的用戶名)   需要更換工作路徑 更換方式如下: 打開C:\Users\Admin(自己的用戶名)\.jupyter -> jupyt

原创 大數據(二)--------僞分佈式

一、單臺主機的僞分佈式配置         僞分佈式的配置規劃:   bigdata111 HDFS NameNode SecondaryNameNode DataNode YARN ResourceManager NodeMana

原创 Linux相關

1、安裝VMware12未出現問題; 2、安裝CentOS8時剛開始都配置成功了,但是準備開啓centos虛擬機的時候一直黑屏;       原因:經過查找,發現其實系統已經啓動,只不過沒能顯示而已;       解決辦法:在window

原创 數據分析(一)----- 基本概念及分析軟件安裝

一、什麼是數據分析         專業的解釋:有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據的科學與藝術。         從行業的角度:數據分析是基於某種行業目的,有目的地進行收集、整理、加工和分析數據,提煉有價值

原创 數據分析(二)----- 描述性統計分析

一、直方圖        直方圖可以直觀的看到數據的大致情況;一般有頻數分佈直方圖和頻率分佈直方圖兩種。 二、數據的計量尺度       數據的計量尺度是指對計量對象量化時採用的具體標準,它分爲以下四類: 定類尺度:表現爲“ 類別 ” ,

原创 爬蟲採集到的數據保存到CSV文件中亂碼問題的解決辦法

         以下的幾種錯誤就是我在解決CSV文件中亂碼問題時遇到的: TypeError: write() argument must be str, not bytes; TypeError: a bytes-like ob

原创 爬蟲(requests)爬取數據爬到一半時亂碼了的解決辦法

        今天寫了一個爬蟲採集一些數據,剛開始一切都很好,後來採集到3萬條左右的時候出現了亂碼,不僅是保存到CSV文件中是亂碼,就連打印到控制檯窗口也是亂碼,這時怎麼一回事?        初步將問題定在網頁編碼可能發生了改動,一開

原创 數據清洗(一)----- 清洗數據的目的及基本格式、類型與編碼

一、數據清洗的目的          簡單的來說不乾淨的數據會導致分析過程中的錯誤以及結果的錯誤。舉個簡單的例子,以前我們上學時做柱形圖這種類型的圖時,如果大部分數據集中在某個區間而一兩個數據離得很遠,如果不去除這一兩個有問題的數據,那整

原创 數據清洗(二)----- 數據轉換

一、將電子表格轉換爲CSV類型         這個比較簡單,基本上用軟件打開電子表格後選擇另存爲就可以定義另存文件的格式和編碼了,這是比較簡單快捷的。不過也有一些地方需要注意: 在另存爲CSV文件時,只有當前工作表中的內容會被保存,這是

原创 數據清洗(三)----- 清洗PDF文件中的數據

       可移植文檔格式(PDF)存儲的文件相對較複雜,因爲它是以二進制的形式存儲的,格式固定,不可修改。使用起來很方便,但是裏面的信息相對較難提取,下面將介紹一些方式提取FDF中的信息。 1. 最簡單的方式----複製      

原创 MySQL(十七)----- 鎖相關問題

         鎖是計算機協調多個進程、線程併發訪問某一資源的機制。傳統的計算機在CPU、RAM、I/O等上採用鎖來防止相互爭奪的情況,同樣,數據庫中的數據也是一種共享的資源,如何保證數據併發訪問的一致性、有效性是是數據庫必須要解決的問

原创 MySQL(十六)------ 優化數據庫對象

        在數據庫設計時,通常會有很多問題需要思考,比如是否需要把所有的表按第三範式來設計?表中各字段設計爲多大的長度合適?等等這些問題都是需要考慮的;下面介紹的就是通過一些方法來分析,而後進行指導數據庫的優化。 一、優化表的數據類

原创 MySQL(十五)----- SQL語句優化之索引問題

       索引是數據庫優化中最常用也是最重要的手段之一,通過索引通常可以解決大多數的SQL性能問題。 一、索引的存儲分類        索引是在MySQL的存儲引擎層中實現的,因此,每種存儲引擎的索引都不一定完全相同,也不是所有的存儲