<< C程序设计语言第2版 >> 练习 1-23 删除C语言程序中所有的注释语句
1. 前言
本篇文章介绍的是实现删除C语言源文件中所有注释的功能.希望可以给C语言初学者一点参考.代码测试并不充分, 所以肯定还有bug, 有兴趣的同学可以改进.
原题目是:
练习1-23 编写一个删除C语言程序中所有的注释语句. 要正确处理带引号的字符串与字符常量. 在C语言中, 注释不允许嵌套.
2. 关于C语言注释
C语言在K&C和c89/c90时还不支持单行注释, 只有多行注释, 单行注释是以C99标准引入, 从C++那里借鉴的, 另外提一下C语言的4个标准
K&R C 这实际是C语言第1个标准, 就是C程序设计语言这本书的第1个版本, 虽不是正式标准但是实际上的第1个标准, 好好读这本书吧, 第2版加入了ANSI C的一些特性, 如函数原型声明.
C89 这是C语言的首个正式标准, 1989年由美国国家标准委员会ANSI制定, 也称为ANSI C, 其实就是美国的国家标准C.
C90 国际标准化组织ISO采纳了ANSI C标准,于1990年发布,也称为C90, 与ANSI C差异不大.
C99 ISO于1999年发布, 对C进行进行了重大革新,如新数据类型long long, _Bool等, 单行注释也从C++而借鉴.
所以如果编译器老到C99都不支持,那就无法识别单行注释,但网络如此发达的今天随便下一个IDE或编译器应该都支持.
3. 注意事项
在完成这个编程作业前, 有几点需要注意.
3.1 c语言中有两种注释,一种是单行注释即以//开头到换行符为止, 还有就是多行注释, 这两种情况都需要处理;
3.2 注释(多行)不允许嵌套. 原题目有提到注释不允许嵌套, 因此这里假定待处理的文件中不包含不合法的注释, 本程序不检查注释的合法性;
3.3 带引号的字符串内的注释无效, 不能当做注释删除;
例如 printf("hello, /* test */ world"); 这行代码中的 /* test */ 不能被当作注释删除, 因为它属于字符串的一部分, 不是注释.
3.4 要注意处理字符常量. 比如双引号是字符常量, 不可当做字符串标记;
例如: char c = '\"'; 这里双引号只是一个字符常量, 不能当作字符串开始或结束标记.
但这里有个关键问题, 怎么实现删除操作呢? 如果简单点, 可以直接输入一些C代码, 手动加注释, 然后输入完成, 把原有输入中的注释屏蔽掉就删除了, 即不输出注释部分就可以了. 但这样手动输入太麻烦, 也不实用. 所以我们用C语言源代码文件为输入, 另外创建一个新的C源代码文件, 并将原文件中所有注释都不输出到新的C源代码文件就可以了. 这样编好程序还有一定的实用性, 可以用来删除C源代码中注释很多的文件. 只是文件操作超出了这本书第1章的内容.
4. 代码讲解
/* 初始状态不在字符串和注释中 */instrs = incomm_s = incomm_m = FALSE; prec = c = '\0';prec = getc(fr);c = getc(fr);while (prec != EOF) {if (instrs == FALSE) { /* 检查进入或脱离注释 */if (prec == '/' && c == '*') {incomm_m = TRUE;} else if (prec == '/' && c == '/') {incomm_s = TRUE;} if (incomm_m == TRUE && prec == '*' && c == '/') {incomm_m = FALSE;c = getc(fr);prec = c;c = getc(fr);} else if (incomm_s == TRUE && prec == '\n') {incomm_s = FALSE;}}/* 检查进入或脱离字符串中 */if (c == '"' && prec != '\\' && instrs == FALSE) {instrs = TRUE;} else if (c == '"' && prec != '\\' && instrs == TRUE) {instrs = FALSE;}/* 处理删除注释 */if (instrs == FALSE && (incomm_m == TRUE || incomm_s == TRUE)) {prec = c;c = getc(fr);} else {putc(prec, fw);prec = c;c = getc(fr);}}
文件打开和写入部分没啥可讲的, 直接执行打开和写入就行了. 主要的处理逻辑全在这个while循环中. prec表示前一个字符, c是当前字符. incomm_m表示是否在多行注释中, incomm_s表示是否在单行注释中. 分成三块:
第一部分处理是否在注释中.
第二部分处理是否在字符串中.
第三部分处理删除注释.
第一部分首先要搞清楚当前是否在注释中, 但在处理是否在注释中之前首先要明确如果当前没在字符串之中, 才能切换是否在注释中的状态. 因为如果当前在字符串中, 是不可以改变在注释中或出注释状态的, 在字符串中所有字符都要原样输出到新文件不能删除任何字符. 哪怕字符串中有/* */这样的字符存在也不行.
另外由于判断是否在注释中时需要关注两个字符, 即多行的 /* 或 */ , 单行的 // , 所以我们从源代码文件中获取字符一次获取两个.所以程序开头一次读取两个字符:
prec = getc(fr);
c = getc(fr);
并且在出注释 (多行) 时即发现 */ 连续出现时, 要继续多读取两个字符, 不然这里将注释状态置为出注释后, 后面就立刻将最后的字符写入到新文件, 而这最后的那个仍然是注释内. 所以这里一旦发现出注释时, 要多读取两个字符:
if (incomm_m == TRUE && prec == '*' && c == '/') {incomm_m = FALSE;c = getc(fr);prec = c;c = getc(fr);
}
第二部分检查是否在字符串中中需要说明的是, 当发现 " 双引号时, 双引号之前的字符不可以为 \ 才能切换字符串状态. 因为 \ 表明这里双引号只是普通字符, 不能当作字符串开始或结束的标记.所以才有 prec != '\\' 这个判断.
第三部分就是说如果不在字符串中, 在合法有效的单行或多行注释中就不写入新的文件中, 即删除注释. 因为如果在字符串中全部字符都要写入新文件中的. 其它所有情况(包括在字符串中)依次写入前一个字符 prec, 然后读取一个新字符c.
5. 完整代码
/* C程序设计语言第2版 练习1-23 编写删除C语言中所有注释的程序 */
/* 注意事项: 要正确处理带引号的字符串和字符常量,并且C语言中 */
/* 注释不允许嵌套 */#include <stdio.h>
#include <stdlib.h>
#define TRUE 1
#define FALSE 0int main(int argc, char *argv[])
{FILE *fr, *fw; int prec, c; /* instrs表示是否在字符串中 *//* incomm_s和incomm_m表示是否在单行多行注释中 */int instrs, incomm_s, incomm_m; if (argc < 3) { /* 命令行语法检查 */printf("Usage: %s file1 file2\n", argv[0]);exit(EXIT_FAILURE);}printf("This program removes all comments from file1 and then ");printf("outputs to file2.\n");if ((fr = fopen(argv[1], "r")) == NULL) { /* 检查打开文件1错误 */printf("Can't open the C source file %s.\n", argv[1]);exit(EXIT_FAILURE);}if ((fw = fopen(argv[2], "w")) == NULL) { /* 检查打开文件2错误 */printf("Can't open the new file2 %s.\n", argv[2]);exit(EXIT_FAILURE);}/* 初始状态不在字符串和注释中 */instrs = incomm_s = incomm_m = FALSE; prec = c = '\0';prec = getc(fr);c = getc(fr);while (prec != EOF) {if (instrs == FALSE) { /* 检查进入或脱离注释 */if (prec == '/' && c == '*') {incomm_m = TRUE;} else if (prec == '/' && c == '/') {incomm_s = TRUE;} if (incomm_m == TRUE && prec == '*' && c == '/') {incomm_m = FALSE;c = getc(fr);prec = c;c = getc(fr);} else if (incomm_s == TRUE && prec == '\n') {incomm_s = FALSE;}}/* 检查进入或脱离字符串中 */if (c == '"' && prec != '\\' && instrs == FALSE) {instrs = TRUE;} else if (c == '"' && prec != '\\' && instrs == TRUE) {instrs = FALSE;}/* 处理删除注释 */if (instrs == FALSE && (incomm_m == TRUE || incomm_s == TRUE)) {prec = c;c = getc(fr);} else {putc(prec, fw);prec = c;c = getc(fr);}}
}
6. 运行结果
我这里将另一个练习1-13的C源文件作为输入, 测试运行结果.
执行:
执行结果, 左边是含注释的输入源代码文件1_13.c , 右边是删除注释后的源代码文件1_13_2.c :
然后我又重新编译了一下 1_13_2.c 也就是删除注释后的文件, 能通过编译, 但不完全肯定有没有删除正常字符. 大致看上去只删除了正常合法注释.
7. 结语
第1章最后一个作业题是检查C语言基本语法错误的题目, 这个程序实现有难度, 而且实现到什么程度也很灵活, K老师只是没说其实就是实现一点编译器的功能, 怕吓退初学者. 但这个程序做好了还有一定的实用性, 后续找时间做一下.
喜欢就点赞收藏, 您的点赞收藏是我创作的动力.