原创 Course1_Week1_ProgrammingHomeWork

Exercise 1: Pascal’s Triangle The following pattern of numbers is called Pascal’s triangle. 1 1 1 1 2 1 1 3 3

原创 找出3個數中不爲-1的最小數

假設有3個數,它們的取值都可能爲-1,現在要求找出其中不爲-1的最小的數。本來我一開始的想法是利用8次if判斷,知道我看到一位老師如下去實現。 int taaIndex = findStopCodon(dna, startIndex, "T

原创 馬拉車算法

馬拉車算法用於尋找字符串中的最長迴文子串。 java class ManacherAlgo { String longestPalindrome(String s) { // 填充 String ne

原创 偏差-方差分解

當訓練得到一個模型\(f\)時,我們希望\(f\)的泛化能力足夠強,這樣也代表它對於新的樣本有比較好的預測能力。我們會通過實驗檢驗\(f\)的泛化誤差,那它的泛化誤差到底是由哪幾部分貢獻? 這裏先給出結論:噪聲、偏差與方差。 定義 訓練模

原创 決策樹如何防止過擬合

決策樹在長成的過程中極易容易出現過擬合的情況,導致泛化能力低。主要有兩種手段可以用於防止過擬合。 提前停止 Early Stopping,在完全長成以前停止,以防止過擬合。主要有以下3種方式: 限制樹的高度,可以利用交叉驗證選擇 利用分類

原创 Spark Week1 HomeWork

package wikipedia import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkC

原创 可視化數據集兩個類別變量的關係

需求:比如我有一個數據集,然後其中兩個初始維度都是類別變量。我希望以可視化的方式呈現這兩個變量對於最終分類結果的影響。 利用pandas獲取DataFrame 利用pandas.crosstab來構建一個只關於這2個類別變量的新的Data

原创 擬合多項式演示overfitting

# 預先導入庫 from sklearn.linear_model import LinearRegression from sklearn.preprocessing import PolynomialFeatures import ma

原创 Spark + sbt + IDEA + HelloWorld + MacOS

構建項目步驟 首先要安裝好scala、sbt、spark,並且要知道對應的版本 sbt版本可以在sbt命令行中使用sbtVersion查看 spark-shell可以知曉機器上spark以及對應的scala的版本 IDEA中plugi

原创 CentOS下Hive搭建

目錄 1. 前言 2. MySQL安裝 2.1 更換yum下載源 2.2 開啓MySQL遠程登錄 3. Hive安裝 3.1 下載Hive 3.2 安裝Hive和更改配置文件 4. MySQL驅動包的下載 5. 啓動與測試

原创 36. 有效的數獨

題目鏈接 最直接的解法應該是對9*9的數組進行3次遍歷,分別判斷是否符合要求。下面是代碼: class Solution { public: bool isValidSudoku(vector<vector<char>>& boar

原创 HADOOP依賴

<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www

原创 判別數字圖片能否「一筆完成」

每張給定的數字圖片只有2種像素值,即0和255,如下所示:  現給定全黑的一張背景圖,用一支筆可以連續地在上下左右斜對角共8個方向移動,可以允許重複地經過一處。筆經過處像素值會變爲0,即變成白色。如果這樣操作後能得到一張如上所示的數字圖片

原创 【網易微專業】圖表繪製工具Matplotlib

01 與圖片的交互方式設置 這一小節簡要介紹一下Matplotlib的交互方式 import pandas as pd import numpy as np import matplotlib.pyplot as plt np.random

原创 【18.065】Lecture2

由於這一課的教材放出來了,所以直接將整個pdf放上來。