原创 Windows配置tensorflow

首先安裝好Python3.5,64位。 獲取TensorFlow安裝文件https://ci.tensorflow.org/view/Nightly/job/nightly-win/DEVICE=cpu,OS=windows/lastS

原创 struts2 文件上傳

新建包com.action,在包中新建類FileUploadAction,類代碼如下: package com.action; import java.io.File; import com.opensymphony.xwork2.A

原创 Python解決matplotlib畫圖中文顯示異常問題

1、安裝開源庫pyplotz pip install pyplotz 2、引入包 from pyplotz.pyplotz import PyplotZ from pyplotz.pyplotz import plt pltz=Pyp

原创 Spark的reduceByKey和reduce

reduce的操作對象是列表。 如rdd={1,2,3,3} rdd.reduce((x,y)=> x+y)得到結果是:9 reduceByKey()的操作對象是元組。 如 rdd1={('panda',3),('pink',4)},rd

原创 二、TopN問題解決方案

1、使用hadoop的map/reduce解決TopN問題(唯一鍵) 首先使用SequenceFileWriterForTopN函數生成sequence文件, SequenceFileWriterForTopN函數代碼如下: packag

原创 spark機器學習(Chapter 03)--使用spark-python進行數據預處理和特徵提取

1、首先需要準備MovieLens數據集,並查看數據基本情況 數據主要包含3個數據集:u.data,是用戶對電影的評分數據,u.item是電影的基本數據,u.user是用戶的基本數據。 2、數據分析及可視化表示 2.1用戶數據分析及可視化

原创 一、二次排序

1、軟件版本jdkjdk1.7.0_67hadoophadoop-2.6.0sparkspark-1.4.0-bin-hadoop2.6分別下載上述源碼,並進行配置,打開/etc/profile設置環境變量如下:#set java env

原创 python數據分析(應用數據庫)

本文介紹主題如下: 基於sqlite3的輕量級訪問通過pandas訪問數據庫SQLAlchemy的安裝與配置通過SQLAlchemy填充數據庫通過SQLAlchemy查詢數據庫Pony ORMDataset:懶人數據庫PyMongo與M

原创 python數據分析(分析文本數據和社交媒體)

1、安裝NLTK pip install nltk 至此,我們的安裝還未完成,還需要下載NLTK語料庫,下載量非常大,大約有1.8GB。可以直接運行代碼下載、代碼如下: import nltk nltk.download()這樣可以直接下

原创 python數據分析(統計學和線性代數)

1、求矩陣的逆 代碼#coding:utf8 import numpy as np A=np.mat("2 3 4; 4 2 6;10 -4 18") print "A\n",A inverse=np.linalg.inv(A) #求

原创 最長子序列問題

1、最長遞增子序列問題(可以不連續) a) .使用動態規劃,時間複雜度爲O(n*n)解法: public int lengthOfLIS(int[] nums) { if(nums.length==0) return 0;

原创 python數據分析(數據檢索、加工與存儲)

1、利用numpy和pandas對CSV文件進行寫操作。 a):numpy的savetxt()函數是與loadtxt()相對應的一個函數,它能以諸如CSV之類的區隔型文件格式保存數組。 代碼: import numpy as np np.

原创 python數據分析(pandas入門)

1、pandas數據結構之DataFrame DataFrame生成方式:1、從另一個DataFrame創建。2、從具有二維形狀的NumPy數組或數組的複合結構生成。3、使用Series創建。4、從CSV之類文件生成。下面介紹DataFr

原创 Spark機器學習(Chapter 04)推薦系統

代碼: #coding:utf-8 from pyspark import SparkContext sc = SparkContext("local[4]", "MovieLens Spark App") rawData=sc.tex

原创 畫出使用分類器得到的決策邊界

獲取數據集,並畫圖代碼如下: import numpy as np from sklearn.datasets import make_moons import matplotlib.pyplot as plt # 手動生成一個隨機的平