原创 python爬取淘寶商品信息

本文實現了用python爬取淘寶信息的功能,主要涉及訪問網頁、正則匹配、json格式化等技術。 # -*- coding: utf-8 -* import requests # import bs4 import re import

原创 Hbase存儲詳解

Hbase存儲詳解 一、概述   Hbase是建立的hdfs之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。   它介於nosql和RDBMS之間,僅能通過主鍵(row key)和主鍵的range來檢索數據,僅支持單行事

原创 Python Excel 導出 + 發送郵件

一、依賴模塊 1.excel導出依賴xlwt或者xlsxwriter xlwt只能支持65535行,較大數據量可以選用xlsxwriter; python 字符默認是ascii編碼,導出時轉化爲udf-8格式 2.發送郵件依賴smtpli

原创 Apache 流框架 Flink,Spark Streaming,Storm對比分析

1.Flink架構及特性分析 Flink是個相當早的項目,開始於2008年,但只在最近纔得到注意。Flink是原生的流處理系統,提供high level的API。Flink也提供 API來像Spark一樣進行批處理,但兩者處理的基礎是完全

原创 python實現Phoenix批量導入數據

官網文檔: Phoenix provides two methods for bulk loading data into Phoenix tables: · Single-threaded client loading tool fo

原创 spark的kafka的低階API createDirectStream

大家都知道在spark1.3版本後,kafkautil裏面提供了兩個創建dstream的方法,一個是老版本中有的createStream方法,還有一個是後面新加的createDirectStream方法。關於這兩個方法的優缺點,官方已經說

原创 Hadoop2.7.3搭建單機、僞分佈環境

1.下載jdk並安裝去官網下就可以了,下完之後把文件移到/opt/Java下[plain] view plain copyguo@guo:~/下載$ mv ./hadoop-2.7.2-src.tar.gz /opt/Hadoop/  m

原创 SSM框架(三)——Mybatis多表關聯查詢

本文介紹ssm框架中mybatis實現多表關聯查詢的問題。主要修改mapper.xml和Entity定義兩個地方,mapper.xml中需要定義返回格式,而Entity裏定義關聯表類的相互引用等關係。 一、一對一關聯  1.1、

原创 Eclipse部署Tomcat項目

本文實現Eclipse部署Tomcat項目。項目組給力git框架,由於第一次操作,踩了很多坑,以下做一些記錄。 1.下載git項目。 1)常規方法: (1)File->import->Git->project from git

原创 Java實現“推薦註冊,獲得獎勵”算法

應用場景:推薦新用戶註冊A會員推薦B註冊,即贈送A會員100積分,B會員推薦C會員註冊,贈送A會員50積分、B會員各100積分,依次類推,只要A發展的會員繼續發展下面的會員,A都可以獲增相應的積分。 package com.enn.tes

原创 shell獲取日期

1.通過shell獲取當前8位日期,並賦給變量,並且使用變量作爲文件名,建立文件夾代碼如下:ls_date=`date +%Y%m%d` mkdir ${ls_date}上面兩句代碼雖然簡單但是在應用中比較實用獲取日期注意事項:date

原创 Spark 核心 RDD 剖析

本文將通過描述 Spark RDD ——彈性分佈式數據集(RDD,Resilient Distributed Datasets)的五大核心要素來描述 RDD,若希望更全面瞭解 RDD 的知識,請移步 RDD 論文:RDD:基於內存的集羣計

原创 IntelliJ IDEA 2017激活(Mac版本)

1. 下載JetbrainsCrack-2.6.2.jar鏈接:http://pan.baidu.com/s/1eRJkOcq 密碼:a4ji12這個是我使用的IntelliJ IDEA 2017版本下載地址鏈接:http://pan

原创 Hive官方文檔-Hive Tutorial

Hive Tutorial Hive TutorialConcepts  What Is HiveWhat Hive Is NOTGetting StartedData UnitsType SystemBuilt In Opera

原创 解決Spark應用日誌級別設置

最近在研究Spark的相關知識,本地搭建了一個開發環境Windows7+Eclipse+JDK1.7。一. 日誌效率原因開發時,控制檯輸出一大堆日誌信息,嚴重影響查看日誌效率。從控制檯輸出日誌我們可以看出,應用程序是默認加載Spark-c