【開發語言及實現平臺或實驗環境】
C++/Clion
【實驗目的】
(1)理解詞法分析在編譯程序中的作用
(2)加深對有窮自動機模型的理解
(3)掌握詞法分析程序的實現方法和技術
【實驗內容】
對一個簡單語言的子集編制一個一遍掃描的詞法分析程序。
【實驗要求】
(1)待分析的簡單語言的詞法
- 關鍵字
begin if then while do end - 運算符和界符
:= + - * / < <= > >= <> = ; ( ) # - 其他單詞是標識符(ID)和整形常數(NUM),通過以下正規式定義:
ID=letter(letter|digit)*
NUM=digitdigit* - 空格由空白、製表符和換行符組成。空格一般用來分隔ID、NUM、運算符、界符和關鍵字,詞法分析階段通常被忽略。
(2)各種單詞符號對應的種別編碼
(3)詞法分析程序的功能
輸入:所給文法的源程序字符串
輸出:二元組(syn,token或sum)構成的序列。
syn爲單詞種別碼;
token爲存放的單詞自身字符串;
sum爲整形常數。
例如:對源程序begin x:=9;if x>0 then x:=2*x+1/3;end# 經詞法分析後輸出如下序列:(1,begin)(10,’x’) (18,:=) (11,9) (26,; ) (2,if)……
【實驗步驟】
(1)根據圖1.1構建主程序框架
代碼提示:
main()
{
p=0;
printf(“\n please input string:\n”);
do{
輸入源程序字符串,送到緩衝區prog[p++]中
}
while(ch!=’#’);
p=0;
do
{
scanner();//調用掃描子程序
switch(syn)
{
case 11:輸出(數的二元組);break;
case –1:輸出(錯誤);break;
default:輸出(其他單詞二元組);
}
} while(syn!=0);
}
(2)關鍵字表置初值
關鍵字作爲特殊標識符處理,把它們預先安排在一張表格中(關鍵字表),當掃描程序識別標識符時,查關鍵字表。如能查到匹配的單詞,則爲關鍵字,否則爲一般標識符。
(3)編寫掃描子程序
代碼提示:
scanner()
{
…….
讀下一個字符送入ch;
while(ch= =’ ’) 讀下一個字符;
if(ch是字母或數字)
{
while((ch是字母或數字))
{
ch=>token;
讀下一個字符;
}
token與關鍵字表進行比較,確定syn的值;
}
else
if(ch是數字)
{
…………..
syn=11;
}
else
swith(ch)//其他字符情況
{
case’<’:
…………
case’>’:
…………
…………………………….
Default:syn=-1;
}
}
(4)調試程序,驗證輸出結果。
【實驗代碼】
#include <iostream>
#include <string>
using namespace std;
// 關鍵字表置初始值
string keyword[30] = {"#", "begin", "if", "then", "while", "do", "end", "", "", "",
"letter(letter|digit)*", "digitdigit*", "", "+", "-", "*", "/",
":", ":=", "", "<", "<>", "<=", ">", ">=", "=", ";", "(", ")"};
class word {
public:
int syn{};
string token;
};
// 處理單詞的函數
word letterAnalysis(const string &subCode) {
word item;
if (subCode.substr(0, 5) == "begin") {
item.syn = 1;
} else if (subCode.substr(0, 2) == "if") {
item.syn = 2;
} else if (subCode.substr(0, 4) == "then") {
item.syn = 3;
} else if (subCode.substr(0, 5) == "while") {
item.syn = 4;
} else if (subCode.substr(0, 2) == "do") {
item.syn = 5;
} else if (subCode.substr(0, 3) == "end") {
item.syn = 6;
} else {
// 如果是其它單詞,截取到第一個非字符
for (int i = 0; i < subCode.length(); ++i) {
if (!(subCode[i] > 'a' && subCode[i] < 'z')) {
item.syn = 10;
keyword[item.syn] = subCode.substr(0, i);
break;
}
}
}
item.token = keyword[item.syn];
return item;
}
// 處理數字的函數
word numberAnalysis(string subCode) {
word item;
item.syn = 11;
for (int i = 0; i < subCode.length(); ++i) {
// 截取到第一個非數字字符
if (!(subCode[i] >= '0' && subCode[i] <= '9')) {
keyword[item.syn] = subCode.substr(0, i);
break;
}
}
item.token = keyword[item.syn];
return item;
}
// 處理字符的函數
word charAnalysis(string subCode) {
word item;
switch (subCode[0]) {
case '#':
item.syn = 0;
break;
case '+':
item.syn = 13;
break;
case '-':
item.syn = 14;
break;
case '*':
item.syn = 15;
break;
case '/':
item.syn = 16;
break;
case ':':
if (subCode[1] == '=') {
item.syn = 18;
} else {
item.syn = 17;
}
break;
case '<':
if (subCode[1] == '>') {
item.syn = 21;
} else if (subCode[1] == '=') {
item.syn = 22;
} else {
item.syn = 20;
}
break;
case '>':
if (subCode[1] == '=') {
item.syn = 24;
} else {
item.syn = 23;
}
break;
case '=':
item.syn = 25;
break;
case ';':
item.syn = 26;
break;
case '(':
item.syn = 27;
break;
case ')':
item.syn = 28;
break;
}
item.token = keyword[item.syn];
return item;
}
// 詞法分析
void scanner(const string &code) {
for (int i = 0; i < code.length(); ++i) {
word item;
if (code[i] > 'a' && code[i] < 'z') {
// 處理單詞
item = letterAnalysis(code.substr(i, code.length() - i + 1));
} else if (code[i] >= '0' and code[i] <= '9') {
// 處理數字
item = numberAnalysis(code.substr(i, code.length() - i + 1));
} else if (code[i] == ' ') {
// 如果是空格,直接跳過
continue;
} else {
// 處理特殊符號
item = charAnalysis(code.substr(i, code.length() - i + 1));
}
i += int(item.token.length()) - 1;
cout << "(" << item.syn << "," << item.token << ")" << endl;
}
}
int main() {
string code;
cout << "Please input string:";
// 讀入一行代碼,因爲代碼中有空格,所以要用 getline
getline(cin, code);
scanner(code);
return 0;
}
【運行結果】