原创 Hbase數據傾斜問題處理手段彙總

[1]HBase 中加鹽(Salting)之後的表如何讀取:協處理器篇 [2]Hbase熱點問題、數據傾斜和rowkey的散列設計 [3]HBase優化之避免數據傾斜 [4]大數據學習筆記——HBase面試題 [5]hb

原创 spark2.x-內存管理機制

https://blog.csdn.net/qq_16038125/article/details/80359414

原创 spark RDD處理數據集

package com.hicore.exercise import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkContext import org.a

原创 spark源碼解析

生產環境客戶端提交spark程序,基於腳本提交的spark-submit spark.version:2.4.0 scala.version:2.12 源碼解析: spark-submit:          --main()      

原创 股票信息東方財富網爬數據

import time import requests import json class EastMoney(object): def __init__(self): # 套查詢的頁碼 s

原创 抖音APP視頻數據採集

原文鏈接:https://cloud.tencent.com/developer/article/1131879 https://cloud.tencent.com/developer/arti

原创 Charles解析https,unknown錯誤解決辦法

之前一直使用Charles,抓包https的沒有問題,enable ssl的時候出現unknown消息,disable ssl的時候出現亂碼,解決辦法:  在設置–>通用–>關於本機–>證書信任設置  把裏面的那個Charles的證書設置

原创 python 多線程爬蟲(京東iPhone)

# 多線程模塊 import threading # 隊列模塊 import queue import requests from lxml import etree import time import random import j

原创 python 爬京東商品信息

from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.suppo

原创 python 根據需求靈活爬取唯品會商品動態數據

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expe

原创 python學習方向

Python學習路線一:Python基礎 必學知識:【Linux基礎】【Python基礎語法】【Python字符串】【文件操作】【異常處理】【Python面向對象】【項目實戰】 路線講解:該路線循序漸進,科學合理,幫助學習者建立正確的編程

原创 python 詞雲圖

# 圖片加載使用 from PIL import Image # 將圖片轉換爲二進制數據流 import numpy as np # jieba分詞 import jieba # 繪圖 import matplotlib.pyplot

原创 一起學習阿里巴巴數據中臺實踐

原文鏈接:http://www.360doc.com/content/19/0802/18/27972427_852618364.shtml http://www.360doc.com/cont

原创 Fiddler抓包工具手機添加代理後連不上網解決辦法

原文鏈接:https://blog.csdn.net/shuiziliu1025/article/details/80911811 https://blog.csdn.net/shuiziliu

原创 python 內置函數

原文鏈接:https://www.runoob.com/python/python-built-in-functions.html https://www.runoob.com/python/p