原创 暑假的事情
很高興,我終於收到offer了。雖然不是我心中聖地BAT,但也是行業頂尖的大公司。 收到的崗位不是很符合我心中的設想,是做python開發。雖然我懂一點python,但是我沒有項目經驗。我懂各種python開發的技巧,爬蟲啊,數據
原创 WordCloud包
基本參數 class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizonta
原创 金融時間序列處理——(tushare新聞數據合併)添加星期
ts.set_token('') import datetime start='20160601' end='20170101' list1 = [] datestart=datetime.datetime.strptime(start
原创 HEXO 部署到雲服務器詳細指南
一、環境安裝 1.1 node js 安裝 yum install gcc-c++ make yum -y install nodejs 驗證: node -v npm -v 1.2 安裝git、nginx Git 用於版本管理和部署,
原创 kesci任務——公開新聞預測A股行業板塊動向,jieba分詞嘗試
import jieba import jieba.analyse import codecs import pandas as pd import numpy as np rows=pd.read_csv('/home/kesci/i
原创 sparkstreaming實時讀取kakfa到mysql小demo(直讀)
步驟: 安裝部署單機kafka 創建mysql表 sparkstreaming實時消費 一.安裝kafka 注:出於方便以及機器問題,使用單機部署,並不需要另外安裝zookeeper,使用kafka自帶的zookeeper 1.下載htt
原创 UpdateStateByKey操作
官網原話: updateStateByKey操作允許您在使用新信息不斷更新時保持任意狀態。要使用它,您必須執行兩個步驟。 定義狀態 - 狀態可以是任意數據類型。 定義狀態更新功能 - 使用函數指定如何使用先前狀態和輸入流中的新值更新狀態。
原创 可以使用的vpn以及操作過程
前言:1. 電腦 windows 有 2 個客戶端: SSR 和 sstap , 任選一種即可。:https://www.uu635.com/aff.php?aff=2563 SSR 優點: 新增訂閱功能, 我們服務器有更新,訂閱
原创 阿里雲上kafka的安裝和配置
下載kafka的地址: https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.11-1.1.0.tgz 鏡像下載kafka wget http://mirrors.
原创 騰訊雲上安裝kafka,遠程無法訪問
騰訊雲上安裝kafka,遠程總是無法訪問,本地機器可以。 host.name=內網地址 #kafka綁定的interface advertised.listeners=PLAINTEXT://外網映射地址:9092 # 註
原创 Spark運行腳本 start-all.sh(standalone)
#!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agre
原创 時間序列分類實踐介紹(使用Python代碼)
https://www.analyticsvidhya.com/blog/2019/01/introduction-time-series-classification/ 介紹 分類時間序列數據?這真的有可能嗎?可能有什麼用呢?這些只是您
原创 HDFS命令指南
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck
原创 spark源碼導入IDEA
1.官網下載源碼包或者github下載源碼版本 2.下載的tar包解壓後,用open的方式導入IDEA 3.利用maven安裝必要依賴 參考:https://www.cnblogs.com/juncaoit/p/6368371.html
原创 spark的coalesce和repartition算子管理分區
源碼地址https://github.com/apache/spark/blob/v2.4.0/core/src/main/scala/org/apache/spark/rdd/RDD.scala repartition: / *