大數據之數學類知識基礎

數學相關的知識:

  • 集合
  • 函數極限,導數,微分,偏導數
  • 向量
  • 正弦餘弦定理
  • 最小二乘法
  • 矩陣,正交矩陣

  • 集合:是指具有某種特定性質的事物的總體,組成集合的事物稱爲元素。
     通常使用大寫表示集合,小寫表示元素;列舉法,描述法
     列舉法:A={a1,a2,a3,...,an},a1∈A
     描述法:B={x|x^2-1=0},{x|x具有的性質},方程的解即是組成B集合元素

    • 集合性質:
       A,B 若A的元素都是B集合的元素,則稱A(B,A包含於B,若A=B,則表示集合AB相等;若A≠B,則A是B的真子集,A∈/≠B。
      交併補:
       A∩B、 A∪B、 A^c補集
      大數據之數學類知識基礎
  • 函數
    奇偶函數:f(-x)=-f(x),f(x)=f(-x)
    初等函數:

    冪函數:y=X^u u∈常數
    指數函數:y=a^x;(a>0且a≠0)
    對數函數:y=logaX (a>0且a≠0,a=e時y=ln x)
    三角函數:y=sin x ,y=cos x,y=tan x
    反三角函數:y=arcsin x,y=arccos x,y=arctan x
  • 閉區間連續函數的性質

    • 有界性與最大值和最小值定理
      區間I上有定義的f(x),x0∈I,使得對於任一x∈I,都有f(x)≤f(x0),f(x0)≥f(x),即f(x0)是f(x)在區間I上的最大值和最小值。

    • 零點定理
      如果x0使得f(x0)=0,則x0稱爲f(x)的零點
      設函數f(x)在閉區間【a,b】上連續,且f(a)與f(b)異號,即f(a)*f(b)<0,那麼在開區間(a,b)內至少有一點e,使得f(e)=0
  • 極限 :割圓術
    概念:設{Xn}爲一數列,如果存在常數a,對於任意給定的正數E(不論多麼小),總存在正整數N,使得當n>N 時,不等式|Xn-a|<E,都成立,那麼稱a是數列的極限:lim Xn =a,n->∞
    • 函數極限
      0<|x-x0|<s, |f(X)-A|<E,當x->x0時;f(x)->A
  • 導數
    切線問題,在曲線上取一點M(x0,y0),當在曲線取另外一點N任意變化,但直線與曲線線切時,即相交於一點,|MN|->0,
    大數據之數學類知識基礎
    MN直線的斜率:tanθ=(y-x)/(y0-x0)=[f(x)-f(x0)]/(x-x0)
    既有但x->x0時此時直線與曲線線切

    • 導數定義:
      有上述斜率可以歸結爲極限:lim [f(x)-f(x0)]/(x-x0) ,x->x0。
      定義:設函數y=f(x),在點x0的某個領域內有定義,當自變量x在x0處取得增量△x(x0+△x在領域內),則△y=f(x0+△x)-f(x0),當△x->0(即x->x0)時極限存在,則稱函數在x0處可導,稱這個極限爲函數的導數記爲:f `(x0).

     f `(x0)=lim(△y/△x)=lim [ f(x0+△x) - f(x0)] / △x
     也可記作:y*|x=x0 ,dy/dx |x=x0
    導數幾何意義:切線的斜率

    • 常用初等函數導數

      1.(C)'=0   
      2.(x^u)'=ux^(u-1)
      3.(sinx)'=cosx
      4.(cosx)'=-sinx
      5.(tanx)'=sec^2 x
      6.(cotx)'=-csc^2 x
      7.(a^x)'=a^x *lna
      8.(e^x)'=e^x
      9.(logaX)'=1/(x*lna)
      10.(lnx)'=1/x
      11.(1/x)'=1/(x^2)
    • 求導法則:複合函數求導
      [ u(x) ± v(x) ] ' =u'(x) ± v'(x)
      [ u(x)·v(x) ] ' =u'(x)v(x) + u(x)v'(x)
      [ u(x) / v(x) ] '= [ u'(x)v(x) - u(x)v'(x) ] / v^2(x)
      dy/dx=(dy/du)*(du/dx)

    • 函數的微分與導數關係
      dy = f '(x)*dx
  • 微分定義
    大數據之數學類知識基礎
    設此薄片的邊長爲x0,面積爲A,由於薄片受溫度變化的影響時面積發生改變,對應長度增加△x,此時面積對應增加△A
    △A=(x0+△x)^2 - x0^2=2x0△x + (△x)^2
    ==>一般的:△y=A△x + 0(△x)--->替代(△x)^2即(△x)很小時,
    當△x高階無窮小時A≠0,△y=A△x
    函數表示爲:△y=f(x0+△x) - f(x0)=A△x + 0(△x),稱函數y=f(x)在點x0是可微的,而A△x叫做函數在點x0相應於自變量△x的微分,記作dy ,dy=A△x
    當△x-->0時;△y/△x=A+ o(△x)/△x ==>A=lim (△y/△x)=f '(x0)由此可見函數f(x)在x0處可微的充分必要條件是函數在點x0處可導:dy=f '(x0)
    △x-->dy=f '(x)dx

    • 微分幾何意義,可以使用切線代替曲線段,線性代替非線性,近似計算,誤差估計
    • 微分定理
      大數據之數學類知識基礎
    • 費馬引理,即上述連續區間性質最大最小值定義使得:f(x)≤f(x0),f(x0)≥f(x),那麼f '(x)=0;可以通過f(x)在x0處可導條件及極限的保號性證明。通常稱導數等於0的點爲函數的駐點或者臨界點
    • 羅爾定理:
      如果函數f(x)滿足在區間【a,b】上連續;在開區間可導,在端點處函數f(a)=f(b)則在區間內至少有一點e使得f '(e)=0
  • 函數的單調性與極值判定 (由以上定理求出函數的駐點來判斷極大極小)
    • 單調性判斷
      設函數y=f(x)在[a.b]上連續,在(a,b)上可導:
       如果f '(x)>0,那麼y=f(x)在區間上單調遞增
       如果f '(x)<0,那麼y=f(x)在區間上單調遞減
      大數據之數學類知識基礎
    • 極值判斷
      利用二階導數來判斷圖形的凹凸形結合單調性來得駐點是否是極值。
      設函數y=f(x)在[a.b]上連續,在(a,b)上具有一階二階可導:
       如果f ''(x)>0,那麼y=f(x)在區間上圖形是凹===>極小值
       如果f ''(x)<0,那麼y=f(x)在區間上圖形是凸===>極大值
      若二階導數爲0.直接由單調性判斷大小,若f ''(x)≠0,則可以通過二階導數判斷大小,如上
      注:最值問題:f(x)在開區間(a,b)內除了有限個點外可導,且至多有有限個駐點,以及不可導點,極值可能是駐點或者不可導點。

  • 偏導數
     研究一元函數時,我們從研究函數變化率引入了導數概念,對於多元函數同樣研究它的變化率,但多元函數的自變量不止一個,因變量與自變量比一元函數複雜多。這時自變量當個逐一考慮,另外的自變量當做常數考慮。這時的導數稱爲偏導數。與一元函數定義類似。
    大數據之數學類知識基礎
     對應一元的微分,多元引入全微分:dz=(∂z/∂x)·△x+(∂z/∂y)·△y :△x-->dx
     二元函數的極值問題,一般可以利用偏導數來解決,跟一元類似處理。

    • 定理1:設函數z=f(x,y)在點(x0,y0)處具有偏導數,點f(x0,y0)處有極值,則fx(x0,y0)=0,fy(x0,y0)=0;
       同理一階偏導=0的解稱爲駐點,駐點不一定是極值。
    • 定理2:研究駐點是否是極值
      設函數z=f(x,y)在點(x0,y0)的某領域內連續且有一階二階連續偏導數,fx(x0,y0)=0,fy(x0,y0)=0,令二階偏導數:fxx(x0,y0)=A,fxy(x0,y0)=B,fyy(x0,y0)=C,則函數在點(x0,y0)取得極值的條件:
       1.AC-B^2>0時具有極值,A<0,時有極大值,當A>0時有極小值
       2.AC-B^2<0時沒有極值
       2.AC-B^2=0時可能有極值,需另外考慮

      多元函數與一元函數類似,我們可以利用函數的極值來求函數的最大值和最小值

    例如:某廠要用鋼板做成一個體積爲2立方米的有蓋長方形水箱。問當長寬高各取什麼樣的尺寸才最省材料?
     設長x m,寬y m,高爲2/(xy)
     A=2( xy+y2/(xy) +x2/(xy) ),(x>0,y>0)
     Ax=2(y-2/(x^2))=0,Ay=2(x-2/(y^2))=0==>x y的值

    • 上述求極值是限制在定義域內,並無其他條件,拉格朗日乘法加入了有條件極值。
      公式:L(x,y)=f(x,y)+rφ(x,y),條件φ(x,y)=0,可以推廣到多元適用
      聯立解方程:
       fx(x,y)+rφx(x,y)=0
       fy(x,y)+rφy(x,y)=0
       rφ(x,y)=0
      比如:改爲加入條件表面積爲a^2下,而體積爲最大?
      φ(x,y,z)=2xy+2yz+2xz-a^2=0 ,v=xyz聯解即可。
  • 最小二乘法,線性迴歸預測 :有上述極值的算法在實踐中常用的方法
    一元線性方程根據偏差的平方和爲最小的條件來選擇常數的方法叫做最小二乘法
     例子:爲了測定刀具的磨損速度,做了這樣的實驗:經過一定時間(如每隔一小時),測量一次刀具的厚度,得到這樣的數據:
順序編號i 0 1 2 3 4 5 6 7
時間ti/h 0 1 2 3 4 5 6 7
刀具厚度yi/mm 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8

爲了確定時間與刀具厚度的關係,描點法在直角座標系觀察數據:
大數據之數學類知識基礎
圖中點大致接近於直線,線性負相關,可以設:f(t)=at+b,a,b常數
 因爲這些點本來就不在一條直線上,那麼只能要求函數在實驗各點的取值儘量與實驗的結果相差都很小,即要使各點誤差最小:▲=yi-f(ti) (i=0,1,2,...7)
是否可以通過偏差求和來保證每個偏差最小:∑[yi-f(ti)] (i=0,1,2,...7) ?,從圖中可以看出數據點分佈在直線兩側,若通過求和方法,偏差有正負之分,會相互抵消。可通過取絕對值避免抵消偏差:∑ |yi-f(ti)]| (i=0,1,2,...7),但不便於分析討論。任何實數的平方都是正數或零:M=∑[yi-f(ti)]^2 (i=0,1,2,...7) 這種方法即最小二乘法。
 這時即求何時M取最小值,a,b爲何值:由於yi,ti已知,把函數歸結爲M=M(a,b)求解,自變量看作a,b:上述的偏導數極值討論:
 Ma(a,b)=0
 Mb(a,b)=0
大數據之數學類知識基礎
大數據之數學類知識基礎

 此時計算出a,b相關項即可求出:y=at+b**

  • 一元線性迴歸模型預測使用參數 的最小二乘估計,以上的通式是迴歸直線的解,可以看出迴歸直線通過(~x,~y)點,這也是重要特徵之一。

  • 向量:既有大小又有方向(矢量)
    向量的大小叫做向量的模;注這裏粗體表示向量,i, j, k空間直角座標系單位向量
    向量線性運算:起點-->終點
    大數據之數學類知識基礎
    a+b=AB+BC=c
    b+a=AD+DC=AC
    AB=AO+OB=OB-OA=b-a
    a=(ax,ay,az) b=(bx,by.bz)==> a=axi+ayj+azk
    a+b等於對應座標相加

    • 向量的模-勾股定理
      大數據之數學類知識基礎
      r=(x,y,z)=OM ,OP=xi ,OQ=yi ,OR=zi
      OM=OP+OQ+OR
      |r|=|OM|=√[|OP|^2+|OQ|^2+|OR|^2 ]
      |r|=√x^2+y^2+z^2

    • 數量積
      大數據之數學類知識基礎
      物理做功問題,對個向量ab做這樣的運算結果爲一個數,等於|a|、|b|及它們的夾角θ的餘弦乘積稱爲這兩個向量的數量積,記作a·b
      a·b=|a|×|b|cosθ
      座標表示:a·b=axbx+ayby+azbz --對應座標相乘相加
      注:向量積是一個向量:c=a×b,可以使用三階行列式計算,點乘與×乘區別
  • 正餘弦定理:cosθ餘弦相似性判斷屬性相似性
    正:任意三角形,各邊和它所對的角的正弦值的比相等且等於外接圓的直徑
    大數據之數學類知識基礎
    餘:任意一邊的平方等於其他兩邊平方和減去這兩邊與其夾角的餘弦值兩倍
    大數據之數學類知識基礎
    亦可以有上圖:c=AB=b-a來證明,兩邊取平方,根據向量積定義得餘弦定理

  • 通信知識
    信號是消息的載體
    信息及其度量
     事件的不確定程度可以用其出現概率來描述。而消息中包含的信息量與消息發生的概率密切相關。消息出現的概率越小,則消息中包含的信息量就越大。假設p(x)表示消息發生的概率,I表示消息中的信息量,根據描述的關係:I=I[p(x)]
     p(x)越小,I越大,反之I越小;且當p(x)=1時,I=0,p(x)=0,I=∞
     I=loga [1/p(x)]=-loga[p(x)]
     信息量單位與a底數相關,a=2時,單位爲比特bit;a=e時,單位爲奈特nat;a=10時,單位爲哈萊特Hartley.
     對於非等概率離散數據集;平均信息量表示又稱爲信息源的熵
     H(x)=p(x1)[-log2 p(x1)]+p(x2)[-log2 p(x2)]+.....+p(xm)[-log2 p(xm)]=-∑p(xi)*log2 p(xi)

  • 對數運算
    性質:
    大數據之數學類知識基礎
    對數的乘法性質:log(ab)=loga+logb
    對數的除法性質:log(a/b)=loga-logb
    對數的乘方性質:log(b^n)=(n/m)logb ,m爲對數底的乘方
    換底公式:log(b)=log(b)/log(a)
    常用的有:log(b)=log(b)/log(a) (以10爲底)
    log(b)=ln(b)/ln(a) (以e爲底)

    linux中使用:

    log( x ) 返回 x 的自然對數e
    如求10的自然對數:
        awk 'BEGIN { fl=log(10); print fl }'
    如果求log(2,10),以2爲底,10的對數:
        awk 'BEGIN { fl=(log(10)/log(2)); print fl }'
      #awk 'BEGIN{a=(log(4)/log(2));printf "%d\n" ,a/0.5}'
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章