編譯原理（二）

原創

2020-06-25 20:53

一、文法的形式化定義

（1）G=( $V^{T}$ ， $V^{N}$ ，P，S)

$V^{T}$ ：終結符集合，終結符是文法所定義的語言的基本符號，有時也稱token，例如： $V^{T}$ ={Apple，boy，eat，little}

$V^{N}$ ：非終結符集合，非終結符是用來表示語法成分的符號，有時也稱爲“語法變量”，例如： $V^{N}$ ={<句子>,<名詞短語>,<動詞短語>,····}

注意： $V^{T}$ ∩ $V^{N}$ =Φ $V^{T}$ ∪ $V^{N}$ ：文法符號集。

P：產生式集合，產生式描述了將終結符和非終結符組合成串的方法產生式的一般形式：α→β 讀作：α定義爲β（或由·····組成）

α∈( $V^{T}$ ∪ $V^{N}$ )+，且α中至少包含VN中的一個元素：稱爲產生式的頭(head)或左部(left side)

β∈( $V^{T}$ ∪ $V^{N}$ )* ：稱爲產生式的體(body)或右部(right side)

S：開始符號，S∈ $V^{N}$ 。開始符號表示該文法中最大的語法成分，例如：S=<句子>

（2）產生式的簡寫：對一組有相同左部的α產生式α→β1 , α→β2 , … , α→βn

可以簡記爲：α→β1 | β2 | … | βn

讀作：α定義爲β1，或者β2，…，或者βn ，β1，β2，…，βn稱爲α的候選式(Candidate)

（3）符號的約定

下述符號是終結符：字母表中排在前面的小寫字母，如 a、b、c；運算符，如 +、*等；標點符號，如括號、逗號等；數字0、1、. . . 、9；粗體字符串，如id、if等。

下述符號是非終結符：字母表中排在前面的大寫字母，如A、B、 C；字母S。通常表示開始符號；小寫、斜體的名字，如 expr、stmt等；代表程序構造的大寫字母。如E(表達式)、T(項)和F(因子)

除非特別說明，第一個產生式的左部就是開始符號。

二、語言的形式化定義

推導：

給定文法G=( $V^{T}$ ， $V^{N}$ ，P，S)，如果 α→β ∈ P，那麼可以將符號串γαδ中的α替換爲β，也就是說，將γαδ 重寫(rewrite)爲γβδ，記作 γαδ => γβδ。此時，稱文法中的符號串 γαδ 直接推導(directly derive)出 γβδ，也就是用產生式的右部替換產生式的左部。

例：推導與歸約的過程

歸約：就是用產生式的左部替換產生式右部的過程

句子和句型：

如果S=>*α，α∈( $V^{T}$ ∪ $V^{N}$ )*，則稱α是G的一個句型。一個句型既可以包含終結符，又可以包含非終結符，也可能是空串

如果S=>*w,w∈ $V^{T}$ *，則稱w是G的一個句子，句子是不包含非終結符的句型

問題：有了文法（語言規則），如何判定某一詞串是否是該語言的句子？

解答：一、從生產語言角度，由該文法推導出這一詞串

二、從識別語言角度，由該詞串歸約出次文法

由文法G開始符號S推導出的所有句子構成的集合稱爲文法G生成的語言，記爲L(G),即L(G)={w|S=>*w,ww∈ $V^{T}$ *}

語言上的運算：

例：令L={A，B，…，Z，a，b，…，z}，D={0，1，…，9}。則L(L∪D)*表示的語言是標識符。

三、文法的分類

喬姆斯基將文法分爲四種類型：0型，1型，2型，3型。

1.0型文法 α → β

無限制文法/短語結構文法（PSG）：∀α → β∈P， α中至少包含1個非終結符

0型語言：由0型文法G生成的語言L(G)

2.1型文法 α → β

上下文有關文法（CSG）：在0型文法的基礎上，∀α → β∈P，｜α｜≤｜β｜，產生式的一般形式： α1Aα2 → α1βα2 ( β≠ε ) ，不包含ε-產生式

上下文有關語言（1型語言）：由上下文有關文法（1型文法）G生成的語言L(G)。

3.2型文法 α → β

上下文無關文法（CFG）：在1型文法的基礎上，∀α → β∈P，α ∈ $V^{N}$ ，產生式的一般形式：A→β

上下文無關語言（2型語言）：由上下文無關文法（2型文法）G生成的語言L(G)。

4.3型文法 α → β

正則文法（RG）：右線性(Right Linear)文法： A→wB 或 A→w

左線性(Left Linear) 文法： A→Bw 或 A→w

正則語言（3型語言）：由正則文法（3型文法）G生成的語言L(G)，正則文法能描述程序設計語言的多數單詞。

5.四種文法之間的關係

逐級限制：

0型文法：α中至少包含1個非終結符
1型文法（CSG）：｜α｜≤｜β｜
2型文法（CFG）：α ∈ $V^{N}$
3型文法（RG）：A→wB 或 A→w (A→Bw 或A→w)

逐級包含

四、CFG（上下文無關文法）的分析樹

1.CFG分析樹

根節點的標號爲文法開始符號；

內部結點表示對一個產生式A→β的應用，該結點的標號是此產生式左部A 。該結點的子結點的標號從左到右構成了產生式的右部β；

葉結點的標號既可以是非終結符，也可以是終結符。從左到右排列葉節點得到的符號串稱爲是這棵樹的產出( yield )或邊緣(f rontier) 。

2.分析樹是推導的圖形化表示

給定一個推導 S => $a_{1}$ => $a_{2}$ =>…=> $a_{n}$ ，對於推導過程中得到的每一個句型 $a_{i}$ ，都可以構造出一個邊緣爲 $a_{i}$ 的分析樹

3.(句型的)短語

給定一個句型，其分析樹中的每一棵子樹的邊緣稱爲該句型的一個短語(phrase) ，如果子樹只有父子兩代結點，那麼這棵子樹的邊緣稱爲該句型的一個直接短語(immediate phrase)

4.二義性文法

如果一個文法可以爲某個句子生成多棵分析樹，則稱這個文法是二義性的。

二義性文法的判定：對於任意一個上下文無關文法，不存在一個算法，判定它是無二義性的；但是能給出一組充分條件，滿足這組充分條件的文法是無二義性的，滿足肯定是無二義性，不滿足也未必就有二義性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

編譯原理：Introduction

1.1 語言處理器如何實現語言？ Interpreter 解釋器（用“is”的方法解釋程序，幾乎沒有預處理） source code + input —interpreter—> output compilers 編譯器

2020-07-06 05:05:49

編譯概覽

編譯過程概覽詞法分析語法分析語義分析中間代碼生成目標代碼生成專門針對機器的代碼改進詞法分析詞法分析器讀入一個個的字符，並將他們組合成單詞，也就是程序中最小的有意義的單位。詞法分析器的主要作用就是爲了簡化分析器的工作，它能減小輸

2020-07-08 00:39:31

語法分析——TEST編譯器（2）

目錄1 TEST語法規則2 語法分析2.1 功能2.2 錯誤類型2.3 設計思路3 完整代碼4 總結在上一題篇中講到了詞法分析的過程，需要的可以點擊查看詞法分析——TEST編譯器（1） 1 TEST語法規則語法分析是根據TE

打代码的小明

2020-07-08 00:24:36

虛擬機——TEST編譯器（4)

目錄1 虛擬機1.1 功能1.2 特點1.3 設計思路2 完整代碼3 總結詞法分析：詞法分析——TEST編譯器（1）語法分析：語法分析——TEST編譯器（2）語義分析：語義分析——TEST編譯器（3） 1 虛擬機 1.

打代码的小明

2020-07-08 00:24:36

詞法分析——TSET編譯器（1）

目錄1 編譯器1.1 定義1.2 編譯過程1.3 需要實現的功能2 TEST測試語言2.1 TEST詞法規則2.2 TEST語法規則3 詞法分析3.1 功能3.2 特點3.3 錯誤類型3.4 設計思路4 完整代碼5 總結 1 編譯

打代码的小明

2020-07-08 00:24:36

語義分析——TEST編譯器（3）

目錄1 語義分析1.1 功能1.2 錯誤類型1.3 中間代碼1.4 符號表1.5 設計思路2 完整代碼3 總結詞法分析：詞法分析——TEST編譯器（1）語法分析：語法分析——TEST編譯器（2） 1 語義分析 1.1 功能

打代码的小明

2020-07-08 00:24:36

Java實現C的語法分析器（預測分析法）

在上一次詞法分析的基礎之上，我完成了我的C語言的語法分析器。這次選擇的是用Java來實現，採用了自頂向下的分析方法，其思想是根據輸入token串的最左推導，試圖根據現在的輸入字符來判斷用哪個產生式來進行推導。

2020-07-07 20:01:52

編譯原理知識(2)--編譯過程

本文轉載自：http://blog.chinaunix.net/uid-27004869-id-3330076.html 尊重原創在計算機上執行一個高級語言的程序的一般步驟： 1）用一個編譯程序把高級語言翻譯成機器語言程序；

2020-07-06 16:50:04

【北航編譯原理筆記】4. 語義分析與符號表

語義分析與符號表上下文有關分析(標識符的作用域) 類型的一致性檢查語義處理: 聲明語句(登錄名字的特徵信息到符號表上), 執行語句(按某種操作的目標結構生成代碼) 非分程序結構: 主程序與子程序, 函數分開分程序結構:

2020-07-06 15:07:21

【北航編譯原理筆記】2. 詞法分析

詞法分析功能: 根據詞法規則識別及組合單詞,進行詞法檢查對數字常數完成數字字符串 -->二進制數值轉換刪去空格字符和註釋單詞種類: 保留字, 標識符, 常數, 分界符單詞內部形式: 單詞類別 + 單詞值單

2020-07-06 15:07:21

一文帶你快速瞭解編譯原理

什麼是程序的執行? 輸入程序輸出程序可以看做一個函數,接受輸入和返回輸出? 什麼是編譯器? 源程序編譯器目標程序將源程序編譯成目標程序。代表: c/c++ go rust 什麼是解釋器? 源程序解釋器輸入輸出代表:

2020-07-06 02:08:42

zephyr device-tree

zephyr build overview官方說明文檔: https://docs.zephyrproject.org/latest/guides/build/index.html zephyr 也同樣採用了設備樹來描述板級信息，實際使用

2020-07-05 14:37:09

insmod ko invalid module format [unknown relocation]

linux版本4.14 aarch32 用如下出錯版本的Makefile編譯basic.ko，insmod ko到kernel後提示invalid module format, dmesg查看內核打印信息 basic: unknown r

2020-07-05 14:36:59

gdb交叉編譯與編譯參數說明

下載can-utils源碼後手動編譯的步驟 ./configure CC=arm-linux-gnueabihf-gcc --target=arm-linux --host=arm-linux build:執行代碼編譯的主機，自己的主機

2020-07-05 14:36:59

動態鏈接順序

從網上查找知道RPATH的優先級高於LD_LIBRARY_PATH 那LD_LIBARY_PATH中的多個路徑存在同名的so文件的時候bin會選擇哪一個？用兩個so和一個bin做實驗驗證下上面兩個問題實驗環境gcc 5.4 ubunt

2020-07-05 14:36:59

24小時熱門文章

最新文章

最新評論文章