原创 暑假的事情

  很高興,我終於收到offer了。雖然不是我心中聖地BAT,但也是行業頂尖的大公司。   收到的崗位不是很符合我心中的設想,是做python開發。雖然我懂一點python,但是我沒有項目經驗。我懂各種python開發的技巧,爬蟲啊,數據

原创 WordCloud包

基本參數 class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizonta

原创 金融時間序列處理——(tushare新聞數據合併)添加星期

ts.set_token('') import datetime start='20160601' end='20170101' list1 = [] datestart=datetime.datetime.strptime(start

原创 HEXO 部署到雲服務器詳細指南

一、環境安裝 1.1 node js 安裝 yum install gcc-c++ make yum -y install nodejs 驗證: node -v  npm -v 1.2 安裝git、nginx Git 用於版本管理和部署,

原创 kesci任務——公開新聞預測A股行業板塊動向,jieba分詞嘗試

import jieba import jieba.analyse import codecs import pandas as pd  import numpy as np rows=pd.read_csv('/home/kesci/i

原创 sparkstreaming實時讀取kakfa到mysql小demo(直讀)

步驟: 安裝部署單機kafka 創建mysql表 sparkstreaming實時消費 一.安裝kafka 注:出於方便以及機器問題,使用單機部署,並不需要另外安裝zookeeper,使用kafka自帶的zookeeper 1.下載htt

原创 UpdateStateByKey操作

官網原話: updateStateByKey操作允許您在使用新信息不斷更新時保持任意狀態。要使用它,您必須執行兩個步驟。 定義狀態 - 狀態可以是任意數據類型。 定義狀態更新功能 - 使用函數指定如何使用先前狀態和輸入流中的新值更新狀態。

原创 可以使用的vpn以及操作過程

前言:1.  電腦 windows 有 2 個客戶端: SSR 和 sstap , 任選一種即可。:https://www.uu635.com/aff.php?aff=2563    SSR 優點: 新增訂閱功能, 我們服務器有更新,訂閱

原创 阿里雲上kafka的安裝和配置

下載kafka的地址: https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.11-1.1.0.tgz 鏡像下載kafka wget http://mirrors.

原创 騰訊雲上安裝kafka,遠程無法訪問

騰訊雲上安裝kafka,遠程總是無法訪問,本地機器可以。 host.name=內網地址      #kafka綁定的interface advertised.listeners=PLAINTEXT://外網映射地址:9092    # 註

原创 Spark運行腳本 start-all.sh(standalone)

#!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agre

原创 時間序列分類實踐介紹(使用Python代碼)

https://www.analyticsvidhya.com/blog/2019/01/introduction-time-series-classification/ 介紹 分類時間序列數據?這真的有可能嗎?可能有什麼用呢?這些只是您

原创 HDFS命令指南

https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck

原创 spark源碼導入IDEA

1.官網下載源碼包或者github下載源碼版本 2.下載的tar包解壓後,用open的方式導入IDEA 3.利用maven安裝必要依賴 參考:https://www.cnblogs.com/juncaoit/p/6368371.html

原创 spark的coalesce和repartition算子管理分區

源碼地址https://github.com/apache/spark/blob/v2.4.0/core/src/main/scala/org/apache/spark/rdd/RDD.scala repartition: / *