原创 selenium+chrome無界面瀏覽器實現爬蟲

selenium介紹 Selenium是python的第三方庫,對外提供的接口可操作瀏覽器,然後讓瀏覽器完成自動化的操作 selenium 是一套完整的web應用程序測試系統,包含了測試的錄製(selenium IDE),編寫及運

原创 索引和切片的基本使用

整數索引和切片的基本使用 arr = np.arange(8) #獲取索引爲5的元素 arr[5]————>5 #獲取索引爲3-5的元素,但不包括5 arr[3:5]————>array([3,4]) 二維數組的索引方式 在二維

原创 Linux的簡單命令

linux的命令操作 1、日常操作命令 **查看當前所在的工作目錄 pwd **查看當前系統的時間 date **查看有誰在線(哪些人登陸到了服務器) who 查看當前在線 last 查看最近的登陸歷史記錄 2、文件系統操作 *

原创 面向對象編程(1)

面向對象編程特徵:封裝、繼承、多態 面向對象與面向過程 面向過程:分析出解決問題的步驟,根據步驟用代碼一一實現的編程方法 程序=數據結構+算法 面向對象:把解決問題的事物分解成多個對象,而建立對象的目的也不是爲了完成一個個步驟,而

原创 numpy的函數應用

1.numpy的基本操作函數 1)astype(dtype):對數組元素進行數據類型的轉換 定義一維數組 a = [1,2,3,4]並將其元素轉換爲float類型 a = np.array([1,2,3,4]) a.dtype O

原创 for語句

for語句相關知識 1.for語句語法格式 : for(表達式1 ; 表達式2 ; 表達式3) { 循環語句組 } 2.for語句執行過程 (1)先計算表達式1的值。 (2)再計算表達式2的值,若其值爲真,則執行循環體一次;否則跳

原创 DataFrame的基本使用

SparkSession 函數及說明 : 創建SparkSession 創建DataFrame 從csv文件中創建DataFrame——sqlContext 代碼 : 創建結果 : pyspark.sql.dataframe

原创 Spark Core概述

Spark Core是spark的核心與基礎,實現了Spark的基本功能,包含任務調度,內存管理,錯誤恢復與存儲系統交互等模塊 Spark Core中包含了對Spark核心API——RDD API(彈性分佈式數據集)的定義:RDD

原创 創建數組及數組的基本操作

numpy數組 NumPy中最重要的一個特點就是其N維數組對象,既ndarray(別名array)對象,該對象可以執行一些科學計算 Ndarray對象中定義了一些重要的元素 創建NumPy數組 查看數組的信息 查看數

原创 數據分析概括

數據分析 數據分析是使用適當的統計分析方法對收集來的大量數據進行分析,從中提取有用信息和形式結論,並加以詳細研究和概括總結的過程 數據分析的目的在於,將隱藏在一大批看似雜亂無章的數據信息集中提煉出來有用的數據,以找出研究對象的內在

原创 Scala數據結構

Scala的數據結構 數據結構——容器 容器(Collection) Scala中容器包 Scala的容器(collection)庫 在Iterable(可迭代的)下的繼承層次包括三個特質: 三種容器最大的區別是其元素的索引方

原创 C編程

C編程的一般步驟 三角形面積程序代碼 #include<stdio.h> #include<math.h> /後面用到sqrt平方根函數,所以要加這條編譯預處理命令/ void main() /main函數首部,返回值爲v

原创 爬蟲的簡要概括

爬蟲分爲五個基本構架: 調度器:相當於一臺電腦的CPU,主要負責調度URL管理器、下載器、解析器之間的協調工作。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重複抓取URL和循環抓取URL,實現URL管理器主

原创 hive的靜態分區和動態分區

分區表: 分區是表的部分列的集合 一般爲頻繁使用的數據建立分區,在查找分區中數據時不用掃描全表,有利於提高查找效率 Hive每個表有一個相應的目錄存儲數據,表中的的每一個分區對應表目錄下的一個子目錄,每個分區中的數據存儲在對應

原创 xpath

Xpath簡介 xpath是在xml文檔中查找信息的語言 安裝:xpath依賴於lxml庫,因此需安裝lxml庫 pip install lxml 應用方法: 通過定義xpath路徑表達式選取文檔中節點及節點內容 Xpath節點