原创 Django:“UnicodeDecodeError: 'ascii' codec can't decode byte”錯誤解決

RSS訂閱功能編輯,對於中文標題輸出解碼錯誤 不是文件“coding: utf-8”問題。 解決 在工程文件的settings.py 文件中添加以下代碼: import sys reload(sys) sys.setdefaultenco

原创 Vim in Windows(2) -- 完善:將Vim添加到右鍵菜單;解決傳統Ctrl+V粘帖與列選擇的衝突;

1.將Vim添加到右鍵彈出菜單 有時候想通過Vim編輯一個文本文件,卻發現沒有使用Vim編輯的右鍵菜單快捷方式, 因此我們要手動自己添加. 1. Win +r, 運行regedit, 編輯註冊表. 2.在HKEY_CLASSES_ROOT

原创 Spark由淺到深(4) -- 數據讀取與保存

文本數據讀取 → Spark操作 → 處理後數據寫入 0. 目的 目前爲止,所展示的示例都是從本地集合或者普通文件中進行數據讀取和保存的。但有時候,數據量可能大到無法放在一臺機器中,這時就需要探索別的數據讀取和保存的方法了。 Spa

原创 Django問題解決:域名訪問出現『bad request』解決

問題闡述 當訪問自己網站的域名:kohang.com時候沒有問題,但是訪問www.kohang.com時候,出現”bad requests”. 經過反覆設置域名解析之後,問題依然如故; Nginx 的 conf 文件直接設置的 IP;

原创 Hive報錯:"/spark//lib/spark-assembly-*.jar: No such file or directory"

問題重現 安裝玩spark集羣后,啓動hive,報了錯誤: /spark//lib/spark-assembly-*.jar: No such file or directory 問題原因 新版本的spark,hive沒有及時支持更新.

原创 Spark由淺到深(2)-- 瞭解核心概念RDD

1. 什麼是RDD ? 彈性分佈式數據集(Resilient Distributed Dataset,RDD),就是分佈式的元素集合. 在 Spark 中,對數據的所有操作不外乎創建 RDD、轉化已有 RDD 以及調用 RDD 操作進行求

原创 Spark由淺到深(*)-- 基礎部分代碼性小結

0.預先準備 安裝 Spark的庫 // 188多Mb的文件 pip install pyspark 1. 初始化SparkContext from pyspark import SparkConf, SparkContext # 先創

原创 Spark由淺到深(3)-- 鍵值對型數據操作

鍵值對 RDD 是 Spark 中許多操作所需要的常見數據類型。因此剛入門時候用來練手和熟悉Spark, 鞏固之前所學是很有必要的. Spark 爲包含鍵值對類型的 RDD 提供了一些專有的操作。這些 RDD 被稱爲 pair RDD。

原创 Hadoop報錯:“Operation category READ is not supported in state standby”問題解決

問題: 18/01/10 05:31:01 INFO retry.RetryInvocationHandler: Exception while invoking getFileInfo of class ClientNamenodePr

原创 真尷尬

國外主機 主機對比 優點 缺點 國內 延遲低 下載境外源生不如死 國外 延遲高,敲命令生不如死 下載境外源非常快 兼顧辦法: 國外主機當飛機場, 國內主機當主戰場. 缺點就是多花一部分錢, 還要考慮備份.

原创 Spark由淺到深(1)--安裝,測試,問題排錯

安裝部署 // 選擇需要的版本. 官網下載: http://spark.apache.org/downloads.html // 部署 tar -zxf spark-1.4.0-bin-hadoop2.6.tgz cd spark-1.