chapter 3：Lexical Analysis 詞法分析

原創

2019-10-26 10:20

3.1 詞法分析的作用

從源程序的字符串中找到logic unit邏輯單元（又稱__token 語法單元__）

token: 語法單元，以一個語法單元名和一個可選屬性組成
- <id, 2> : 標識符，其詳細信息在符號表地址爲2的地方
- <number, 100>
- <add_op>
pattern: 模式，一個token的詞素可能有的形式，可以匹配一個或多個字符串，如“所有整數”的模式
lexeme ：詞素，源程序的一個字符序列，與某個模式匹配

3.2 正規式

正則表達式（正規式regular expression）表示一種特定的模式 pattern。正規式不是能表達所有字符串，如aⁿbaⁿ
符合正規式r的所有字符串集合稱爲r定義的語言，寫作L®。
其中包含所有的字符集合叫alphabet字母表，寫作Σ
ε表示空字符串

三種運算符

選擇 | ，L(r|s) = L®∪L(s)
連接，如ab，並列就表示連接, (a|b)c = (ac) | (bc)
重複/閉包 , a = ε，a，aa，……

優先級： * > 連接 > |

轉義字符(escape character) :\

定義正規式：
自定義：digit -> 0|1|2|3|4|5|6|7|8|9
digit digit*
延伸定義
【0-9】 = 0|1|2|3|4|5|6|7|8|9
【A-Za-z】
r+ = r r*
r? = r | ε

3.3 狀態轉換圖

狀態轉換圖：描述狀態間的轉換關係。
結點表示狀態，邊表示轉換條件，雙線圈表示結束狀態

延伸：程序實現(文末)

3.5 有限狀態自動機 finite state automata

有限自動機分類: NFA non-deterministic finite automata 非確定有限自動機; DFA deterministic finite automata 確定有限自動機

NFA

ε-轉換：不消耗任何字符的轉換
因爲存在ε-轉換，所以一個字串可能有多種接受路徑(如下圖abb被接收，可能在NFA中以abb，abεb接收)。正如NFA其名，沒有確定的狀態轉換路徑

狀態轉換表

NFA狀態轉換表，最後一行要寫epsilon轉換

狀態	a	b	ε
1	{2，3}	Φ	{4}
2	Φ	{4}	Φ
3	Φ	Φ	{4}
4	Φ	Φ	{2}

DFA（不存在ε轉換）

當前狀態接收一個字符，下一個狀態唯一確定！
換句話來說，DFA 的狀態轉換表中，要不是空集Φ，要不是一個狀態

3.6 從正規式到DFA

STEP 1

Thompson 構造
1）只有一個開始狀態和一個結束狀態
2）每個狀態出邊只有

這三種情況: 一條條件爲ε的出邊; 一條條件爲單個輸入字符ε的出邊; 兩條條件都爲ε的出邊

模板

RE	NFA
基礎正規式
連接
閉包

STEP 2(構造狀態集的狀態轉換表 Dtran)

有關定義
T爲一個狀態集
ε-closure(T)：經任意條ε邊可達到的狀態集
move [T, a]: 從ε-closure(T)再經過一條a邊到達的狀態集
Dtran [T, a]: ε-closure(move [T, a])
做題步驟

從開始狀態集，開始狀態轉換
遇到生成集合未出現過，就將該集合放入待轉換集合的隊列中
當沒有新生成的狀態集合，即待轉換集合隊列爲空
將每個集合用數字標識，畫出DFA
小技巧: 轉換集中，最重要的是move[T, a]中的元素，可以用_標出

STEP 3

等價狀態：從DFA圖中，兩個狀態出發能讀出同樣的字符串，則稱該兩個狀態等價。（可以循環執行，先找到對所有可能輸入字符，轉換出狀態相同的兩個狀態，結合該兩個狀態，再繼續找）

DFA的所有狀態放入含有結束狀態的狀態集和不含有結束狀態的狀態集，並組成一個狀態集的集合Π
對Π中每個狀態集進行劃分
若存在a，使屬於Π的T，move[T, a]分佈在Π的k個不同元素中，則將T分成I₁,I₂,……,I_k。
劃分原則：move【I_j, a】在Π的同一元素中
返回2，直到不能再分

狀態轉換圖程序實現方式：
都以識別以字母開頭的由數字和字母組成的字符串爲目的，只要求得到目標字符串，其他字符（other）不放入

用分支語句實現

或者使用switch-case
表驅動

優點：代碼量少，同樣代碼可以解決多種問題
缺點：表可能會很大；稀疏矩陣會大大降低速率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

編譯原理：Introduction

1.1 語言處理器如何實現語言？ Interpreter 解釋器（用“is”的方法解釋程序，幾乎沒有預處理） source code + input —interpreter—> output compilers 編譯器

2020-07-06 05:05:49

編譯概覽

編譯過程概覽詞法分析語法分析語義分析中間代碼生成目標代碼生成專門針對機器的代碼改進詞法分析詞法分析器讀入一個個的字符，並將他們組合成單詞，也就是程序中最小的有意義的單位。詞法分析器的主要作用就是爲了簡化分析器的工作，它能減小輸

2020-07-08 00:39:31

語法分析——TEST編譯器（2）

目錄1 TEST語法規則2 語法分析2.1 功能2.2 錯誤類型2.3 設計思路3 完整代碼4 總結在上一題篇中講到了詞法分析的過程，需要的可以點擊查看詞法分析——TEST編譯器（1） 1 TEST語法規則語法分析是根據TE

打代码的小明

2020-07-08 00:24:36

虛擬機——TEST編譯器（4)

目錄1 虛擬機1.1 功能1.2 特點1.3 設計思路2 完整代碼3 總結詞法分析：詞法分析——TEST編譯器（1）語法分析：語法分析——TEST編譯器（2）語義分析：語義分析——TEST編譯器（3） 1 虛擬機 1.

打代码的小明

2020-07-08 00:24:36

詞法分析——TSET編譯器（1）

目錄1 編譯器1.1 定義1.2 編譯過程1.3 需要實現的功能2 TEST測試語言2.1 TEST詞法規則2.2 TEST語法規則3 詞法分析3.1 功能3.2 特點3.3 錯誤類型3.4 設計思路4 完整代碼5 總結 1 編譯

打代码的小明

2020-07-08 00:24:36

語義分析——TEST編譯器（3）

目錄1 語義分析1.1 功能1.2 錯誤類型1.3 中間代碼1.4 符號表1.5 設計思路2 完整代碼3 總結詞法分析：詞法分析——TEST編譯器（1）語法分析：語法分析——TEST編譯器（2） 1 語義分析 1.1 功能

打代码的小明

2020-07-08 00:24:36

Java實現C的語法分析器（預測分析法）

在上一次詞法分析的基礎之上，我完成了我的C語言的語法分析器。這次選擇的是用Java來實現，採用了自頂向下的分析方法，其思想是根據輸入token串的最左推導，試圖根據現在的輸入字符來判斷用哪個產生式來進行推導。

2020-07-07 20:01:52

編譯原理知識(2)--編譯過程

本文轉載自：http://blog.chinaunix.net/uid-27004869-id-3330076.html 尊重原創在計算機上執行一個高級語言的程序的一般步驟： 1）用一個編譯程序把高級語言翻譯成機器語言程序；

2020-07-06 16:50:04

【北航編譯原理筆記】4. 語義分析與符號表

語義分析與符號表上下文有關分析(標識符的作用域) 類型的一致性檢查語義處理: 聲明語句(登錄名字的特徵信息到符號表上), 執行語句(按某種操作的目標結構生成代碼) 非分程序結構: 主程序與子程序, 函數分開分程序結構:

2020-07-06 15:07:21

【北航編譯原理筆記】2. 詞法分析

詞法分析功能: 根據詞法規則識別及組合單詞,進行詞法檢查對數字常數完成數字字符串 -->二進制數值轉換刪去空格字符和註釋單詞種類: 保留字, 標識符, 常數, 分界符單詞內部形式: 單詞類別 + 單詞值單

2020-07-06 15:07:21

一文帶你快速瞭解編譯原理

什麼是程序的執行? 輸入程序輸出程序可以看做一個函數,接受輸入和返回輸出? 什麼是編譯器? 源程序編譯器目標程序將源程序編譯成目標程序。代表: c/c++ go rust 什麼是解釋器? 源程序解釋器輸入輸出代表:

2020-07-06 02:08:42

zephyr device-tree

zephyr build overview官方說明文檔: https://docs.zephyrproject.org/latest/guides/build/index.html zephyr 也同樣採用了設備樹來描述板級信息，實際使用

2020-07-05 14:37:09

insmod ko invalid module format [unknown relocation]

linux版本4.14 aarch32 用如下出錯版本的Makefile編譯basic.ko，insmod ko到kernel後提示invalid module format, dmesg查看內核打印信息 basic: unknown r

2020-07-05 14:36:59

gdb交叉編譯與編譯參數說明

下載can-utils源碼後手動編譯的步驟 ./configure CC=arm-linux-gnueabihf-gcc --target=arm-linux --host=arm-linux build:執行代碼編譯的主機，自己的主機

2020-07-05 14:36:59

動態鏈接順序

從網上查找知道RPATH的優先級高於LD_LIBRARY_PATH 那LD_LIBARY_PATH中的多個路徑存在同名的so文件的時候bin會選擇哪一個？用兩個so和一個bin做實驗驗證下上面兩個問題實驗環境gcc 5.4 ubunt

2020-07-05 14:36:59

24小時熱門文章

最新文章

最新評論文章