原创 Oracle 處理json數據 備註: 一. Json數據存儲 二. Json數據insert 三. json數據update 四. json數據查詢 五. 常用的json函數 參考:

備註: Oracle 19C 一. Json數據存儲 看了下官網,Json數據一般使用varchar2(400),varchar2(32676)或者BLOB來存儲Json數據。 代碼: create table test_json(id n

原创 python爬蟲之xpath 一. python使用xpath 二. xpath簡介 三. xpath語法 四. 實例 五. 常用函數 參考:

一. python使用xpath 使用時先安裝 lxml 包 pip install lxml 二. xpath簡介 XPath,全稱 XML Path Language,即 XML 路徑語言,它是一門在 XML 文檔中查找信息的語言。X

原创 python爬蟲實戰項目-爬取壁紙 一. 需求 二. 解決方案 參考:

一. 需求 比較喜歡動漫,想從網站下通過爬蟲程序,下載一些動漫的壁紙 https://desk.zol.com.cn/bizhi/8366_103760_2.html 二. 解決方案 代碼: from concurrent.futures

原创 大數據開發之Hive案例篇4-Map數過少導致性能低下 一. 問題描述 二. 解決方案 參考:

一. 問題描述 大表 通過 非等值連接 關聯 小表,數據量激增,但是Hadoop沒有讀取到,導致只分配了6個map數,運行時間長達90分鐘,此時集羣很多資源都處於空閒狀態。 二. 解決方案 問題分析,主要是因爲非等值連接,導致hive

原创 大數據算法系列3:基本數據結構及應用 一. 數據結構 二. 棧 三. 隊列 四. 棧和棧實戰 參考:

一. 數據結構 1.1 指針的原理 1.2 鏈表 鏈表的基本操作: 鏈表 VS 數組: 數組的長度是固定的,而且存儲二項式很麻煩,所以底層用鏈表比較多。 棧和隊列 都是通過 鏈表或數組來實現的 二. 棧 棧的應用: 函數或子程

原创 大數據算法系列1:算法概論,程序=算法+數據結構 一. 關於算法 二. 算法的應用場景 三. 數據結構 四. 算法實例-排序 參考:

一. 關於算法 程序=算法+數據結構。 懂算法,才能寫出更優秀的程序。 二. 算法的應用場景 算法的應用場景十分廣泛,幾乎涵蓋各行各業。 懂算法,可以協助自己優化工作和生活中遇到的問題。 三. 數據結構 四. 算法實例-排序 4.

原创 大數據開發之Hive案例篇3-sqoop導入到hive的大文件 一.需求描述 二.做實驗求證

一.需求描述 今天在hdfs上看到,一個從sqoop導入的表,只有幾個大的文件,而不像其它的表,都是一些小文件。 備註: 測試環境只有4個節點,然後HDFS上剛好4個文件,不確定是否會影響查詢的性能。 sqoop導入命令: sqoop

原创 大數據算法系列9:字符串匹配問題,海量字符串處理 一. 字符串匹配 二. 練習題 參考:

一. 字符串匹配 1.1 字符串匹配 字符串匹配: 字符串匹配在實際工作中經常遇到,但是我們經常使用的是編程語言自帶的功能,對底層瞭解不多。 1.2 字符串匹配算法 1.2.1 樸素算法 這個就很簡單的邏輯了,按照順序挨個去進行比對,如

原创 大數據算法系列4:二叉樹,紅黑樹和B樹 概述: 用於數據查找(搜索)的數據結構 一. 散列表 二. 布隆過濾器 三. 二叉樹 四. 紅黑樹 五. B樹 六. 實例 參考:

概述: 用於數據查找(搜索)的數據結構 前面的文章系列,我們都是講排序,這次我們來講講另外一個應用場景: 數據搜索。 散列表 布隆過濾器 二叉樹 紅黑樹 B樹 一. 散列表 通過hash函數,將數據均勻的分佈在不同的bucket中,這樣

原创 大數據算法系列10:字符串檢驗算法 一. 字符串檢驗算法 二. 練習 參考:

一. 字符串檢驗算法 字符串檢驗算法: 奇偶校驗: 磁盤陣列的Raid5就是使用了奇偶校驗。 海明碼: 二. 練習 2.1 面試題(輸出字符串的排列組合) 題目: 分析: 採用遞歸加動態規劃的思路,加上恢復現場的原理,同時解決。 代碼

原创 Centos7安裝MySQL初始化缺少libaio.so.1 一.問題描述 二.解決方案 參考:

備註: OS :CentOS 7.9 DB : MySQL 5.7.31 一.問題描述 最近幫一個朋友安裝mysql,安裝方式是二進制的安裝,前面還挺順利的。 到了初始化這個步驟的時候,突然報錯,缺少ibaio.so.1 這個包。 二.

原创 Centos7安裝MySQL初始化Can't find error-message file 一.問題描述 二.解決方案 參考:

備註: OS :CentOS 7.9 DB : MySQL 5.7.31 一.問題描述 MySQL 初始化的時候遇到這個報錯: 奇了怪了,MySQL 二進制安裝也安裝了很多生產實例了,一直沒遇到過這個問題,爲什麼今天安裝MySQL出

原创 DataX系列7-HdfsReader介紹 一. 快速介紹 二. 功能與限制 三. 功能說明 參考:

一. 快速介紹   HdfsReader提供了讀取分佈式文件系統數據存儲的能力。在底層實現上,HdfsReader獲取分佈式文件系統上文件的數據,並轉換爲DataX傳輸協議傳遞給Writer。   目前HdfsReader支持的文件格式有t

原创 DataX系列3-TxtFileReader介紹 一.快速介紹 二. 功能與限制 三. 功能說明 參考:

一.快速介紹   實際生產中,鑑於數據安全、不同夠公司數據交互等原因,很多時候會使用txt、csv等文件格式來交互數據。   TxtFileReader提供了讀取本地文件系統數據存儲的能力。在底層實現上,TxtFileReader獲取本地文

原创 DataX系列4-TxtFileWriter介紹 一. 快速介紹 二. 功能與限制 三. 功能說明 四. 測試案例 參考:

一. 快速介紹   實際生產中,鑑於數據安全、不同夠公司數據交互等原因,很多時候會使用txt、csv等文件格式來交互數據。   TxtFileWriter提供了向本地文件寫入類CSV格式的一個或者多個表文件。TxtFileWriter服務的