原创 【Python學習整理 D02】:集合、元組、format、遞歸

集合(set) 跟數學中集合的概念一致 內容無序+內容不重複 通過set關鍵字定義 sa = set() print(type(sa)) # <class 'set'> print(sa) # set() 使用大括號定義 s

原创 【Python網絡爬蟲整理記錄 D:04】——關於爬蟲僞裝中常見headers參數詳解以及常見錯誤代碼及錯誤原因

文章目錄常見Headers參數詳解AcceptAccept-LanguageAccept-EncodingCookieRefererUser-AgentContent-TypeOrigin常見錯誤代碼及錯誤原因User-Agent

原创 【Python網絡爬蟲整理記錄 D:03】——多線程與多進程 | 提高爬蟲的速度

通過學習唐松,來自《Python 網絡爬蟲:從入門到實踐》整理記錄,文中代碼引用自作者源代碼。本篇僅做整理參考使用!!!安利一波:這本爬蟲教程的確不錯!!!ღ( ´・ᴗ・` )比心 文章目錄提升爬蟲速度的三種主要方法:併發和並行,

原创 【Hadoop大數據平臺組件搭建系列(四)】——Kafka組件配置

文章目錄簡介Kafka安裝與配置解壓並配置環境變量進入{KAFKA_HOME}/config目錄下修改配置文件 server.properties拷貝分發驗證安裝是否成功最後,記得點贊哦!!!ღ( ´・ᴗ・` )比心!!!系列文章

原创 【Python學習整理 D03】:基本數據結構——棧(1)

文章目錄棧棧抽象數據類型用Python實現棧關於棧的簡單算法挑戰匹配括號匹配符號 棧 棧(stack)又名堆棧,它是一種運算受限的線性表。限定僅在表尾進行插入和刪除操作的線性表。這一端被稱爲棧頂,相對地,把另一端稱爲棧底。向一個

原创 【Hadoop大數據平臺組件搭建系列(七)】——HBase完全分佈式組件配置

文章目錄簡介安裝解壓Hbase並重命名添加Hbase環境變量並刷新環境變量修改配置文件hbase-env.sh修改配置文件hbase-site.xml修改配置文件regionservers拷貝分發啓動Hbase檢驗安裝是否成功最後

原创 Linux中實現Hadoop各節點間的SSH免密登錄

什麼是SSH? 傳統的網絡服務程序,如FTP、Pop和Telnet在傳輸機制和實現原理上是沒有考慮安全機制的,其本質上都是不安全的;因爲它們在網絡上用明文傳送數據、用戶帳號和用戶口令,別有用心的人通過竊聽等網絡攻擊手段非常容易地

原创 【Linux學習記錄 D:02】——使用tr、sort、uniq命令進行詞頻統計

文章目錄簡介效果圖過程將需要的內容保存至test文件中詞頻統計思路腳本命令簡單問題 簡介 使用linux簡單的命令進行詞頻統計 效果圖 過程 將需要的內容保存至test文件中 cat test 詞頻統計思路 使用換行符\n

原创 【Python網絡爬蟲整理記錄 D:06】——非關係型數據庫MongoDB安裝與pymongo庫的使用

文章目錄MongoDB的安裝windows下MongoDB的配置Python中pymongo庫的使用MongoDB的連接MongoDB的插入MongoDB的查詢MongoDB的更新MongoDB的刪除MongoDB中的比較符號Mo

原创 【Hadoop大數據平臺組件搭建系列(三)】——Hive組件配置

簡介 本篇介紹Hadoop大數據平臺組件中的Hive組件的搭建(搭建Hive前需搭建完成MySQL) 使用軟件版本 apache-hive-1.1.0-bin.tar mysql-connector-java-5.1.47.ja

原创 【Python學習整理 D01】:變量與運算符

變量命名的規則: 變量命名可以包含數字、大小寫字母、下劃線或者更多 數字不可以作爲開頭 一般在Python中,以下劃線開頭的內容具有特殊含義,不建議使用 大小寫不一樣,俗稱大小寫敏感 推薦駝峯命名法,使用具有語義的變量 變量不應

原创 【Hadoop大數據平臺組件搭建系列】——Hadoop完全分佈式搭建(基於CentOS7.4)史上最簡單的Hadoop完全分佈式搭建 一站式解決!!!

文章目錄簡介安裝JDK配置SSH免密登錄詳情戳此篇————》》》[Linux中實現Hadoop各節點間的SSH免密登錄](https://blog.csdn.net/Dchanong_/article/details/104299

原创 【Python網絡爬蟲整理記錄 D:07】———User-Agent反爬蟲以及Cookie反爬蟲

文章目錄User-Agent反爬蟲Cookie反爬蟲 User-Agent反爬蟲 # -*- coding: utf-8 -*- # @Time : 2020/2/22 20:19 # @Author : Dchanong

原创 【Linux學習記錄 D:03】——使用Linux命令進行Excel表格的插入

文章目錄簡介準備過程將xlsx文件更改成zip文件,並解壓至unziptable目錄下通過Excel表格中已有的學生姓名匹配出xuehao.txt文件中的學生學號,並插入至Excel表格中將所有解壓的內容壓縮將壓縮的table2.

原创 【Python學習整理 D04】:Anaconda3使用教程簡單記錄

文章目錄conda簡述更新全部的包管理虛擬環境創建虛擬環境列出所有的虛擬環境切換虛擬環境退出虛擬環境刪除虛擬環境安裝需要的包卸載需要的包導入導出環境導出當前環境的包信息重新創建一個相同的虛擬環境時可以用 conda簡述 Conda