一、實驗目的
設計、編制並調試一個詞法分析程序,加深對詞法分析原理的理解。
二、實驗內容
2.1 待分析的簡單的詞法
(1)關鍵字:
begin if then while do end
所有的關鍵字都是小寫。
(2)運算符和界符
: = + - * / < <= <> > >= = ; ( ) #
(3)其他單詞是標識符(ID)和整型常數(SUM),通過以下正規式定義:
ID = letter (letter | digit)*
NUM = digit digit*
(4)空格有空白、製表符和換行符組成。空格一般用來分隔ID、SUM、運算符、界符和關鍵字,詞法分析階段通常被忽略。
2.2 各種單詞符號對應的種別碼:
表2.1 各種單詞符號對應的種別碼
單詞符號 |
種別碼 |
單詞符號 |
種別碼 |
bgin |
1 |
: |
17 |
If |
2 |
:= |
18 |
Then |
3 |
< |
20 |
wile |
4 |
<> |
21 |
do |
5 |
<= |
22 |
end |
6 |
> |
23 |
lettet(letter|digit)* |
10 |
>= |
24 |
digit digit* |
11 |
= |
25 |
+ |
13 |
; |
26 |
— |
14 |
( |
27 |
* |
15 |
) |
28 |
/ |
16 |
# |
0 |
2.3 詞法分析程序的功能:
輸入:所給文法的源程序字符串。
輸出:二元組(syn,token或sum)構成的序列。
其中:syn爲單詞種別碼;
token爲存放的單詞自身字符串;
sum爲整型常數。
例如:對源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,經過詞法分析後輸出如下序列:
(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……
程序中需要用到的主要變量爲syn,token和sum。
①token用來存放構成單詞符號的字符串;②sum用來整型單詞;③syn用來存放單詞符號的種別碼。
#include <iostream>
#include <string.h>
using namespace std;
char key[6][20] = {"begin","if","then","while","do","end"};//定義一個二維數組存放關鍵字
char token[20]; //存放字符(單詞)
//判斷關鍵字
int isKey(char s[])
{
for(int i = 0; i<6;i++)
{
if(strcmp(s,key[i]) == 0)
{
return i+1; //關鍵字的種別碼依次爲 begin=1,if=2,then=3,while=4,do=5,end=6即爲 i+1 的值
}
}
return -1;
}
//判斷是不是字母
bool isChar(char ch)
{
if((ch>='a' && ch<='z') || (ch>='A' && ch<='Z'))
return true;
else return false;
}
//判斷是不是數字
bool isNum(char ch)
{
if(ch>='0' && ch<='9')
return true;
else
return false;
}
//核心子程序
void scanner(int &syn,int &p,char s[])
{
int count = 0;
if(s[p] == ' ') p++;
//開頭是字母
if(isChar(s[p]))
{
while(isNum(s[p]) || isChar(s[p]))
{
token[count++] = s[p];
p++;
}
token[count] = '\0'; //'\0'作爲結束符 ,將單詞分隔開
syn = isKey(token);
if(syn == -1)
{
syn = 10; //標識符letter(letter|digit) *
}
}
//開頭是數字
else if(isNum(s[p]))
{
while(isNum(s[p]))
{
token[count++] = s[p];
p++;
}
token[count] = '\0';//結束標識
syn = 11; //數字digit(digit) *
}
//如果是運算符或者界符
else
{
if(s[p] == ' ') return;
//先處理沒有爭議的字符
switch(s[p])
{
case '+': syn = 13;token[0] = s[p];token[1]='\0';break;
case '-': syn = 14;token[0] = s[p];token[1]='\0';break;
case '*': syn = 15;token[0] = s[p];token[1]='\0';break;
case '/': syn = 16;token[0] = s[p];token[1]='\0';break;
case '=': syn = 25;token[0] = s[p];token[1]='\0';break;
case ';': syn = 26;token[0] = s[p];token[1]='\0';break;
case '(': syn = 27;token[0] = s[p];token[1]='\0';break;
case ')': syn = 28;token[0] = s[p];token[1]='\0';break;
case '#': syn = 0 ;token[0] = s[p];token[1]='\0';break;
}
//處理有爭議的
//: :=
if(s[p] == ':')
{
token[count++] = s[p];
if(s[p+1] == '=')
{
p++;
token[count++] = s[p];
syn = 18;
}
else
{
syn = 17;
}
token[count] = '\0';
}
//< <> <=
if(s[p] == '<')
{
token[count++] = s[p];
if(s[p+1] == '>')
{
p++;
token[count++] = s[p];
syn = 21;
}
else if(s[p+1] == '=')
{
p++;
token[count++] = s[p];
syn = 22;
}
else
{
syn = 20;
}
token[count] = '\0';
}
//> >=
if(s[p] == '>')
{
token[count++] = s[p];
if(s[p+1] == '=')
{
p++;
token[count++] = s[p];
syn = 24;
}
else
{
syn = 23;
}
token[count] = '\0';
}
//後移
p++; //判斷運算符和界符的這部分由於指針 p 沒有向後指,所以需要將指針 p 向後移一位
}
}
int main()
{
char s[100]; //輸入字符串
while(cin>>s)
{
int p = 0;
int syn;
while(p < strlen(s)) //循環條件 ,p還未指到字符串最後
{
scanner(syn,p,s);
cout<<'<'<<token<<','<<syn<<'>'<<endl;
}
}
return 0;
}
輸入begin x:=9: if x>9 then x:=2*x+1/3; end #
運行結果爲: