根据不同的语言,要实现一个解析器,是一个中等复杂的工作。本质上,解析器就是把你的代码转换成一个“抽象语法树”(简称AST)。AST是代码的抽象语法结构的树状表现形式,抽象语法树的结构不依赖于源语言的文法。后面我会用专门的章节来描述我们的。
举个例子,看下面的一段代码:
sum = lambda(a, b) { a + b;};print(sum(1, 2));复制代码
我们的解析器会生成下面的AST,和JavaScript对象类似:
{ type: "prog", prog: [ // 对应上面第一到第三行代码: { type: "assign", operator: "=", left: { type: "var", value: "sum" }, right: { type: "lambda", vars: [ "a", "b" ], body: { type: "binary", operator: "+", left: { type: "var", value: "a" }, right: { type: "var", value: "b" } } } }, // 第四行代码: { type: "call", func: { type: "var", value: "print" }, args: [{ type: "call", func: { type: "var", value: "sum" }, args: [ { type: "num", value: 1 }, { type: "num", value: 2 } ] }] } ]}复制代码
编写解析器的主要困难在于未能正确合理的组织代码,解析器应该在更高的级别上运行从字符串中读取字符。几个如何保持复杂性管理的建议:
所有的功能要尽可能简洁,而且每个功能只干好一件事就可以了。
不要尝试用正则表达式去解析。他们不会工作。正则表达式在词法分析器会很有用,但是我建议能不用就不用,别让简单的事情复杂化。
不要尝试猜测,当你不确定如何去解析的时候,就抛出异常,并且确保错误信息包含发生错误准确的位置(比如说在哪一行)。
为了简单起见,我将我的代码分为三个部分,之后还会细分成许多小的功能:
(词法分析器)
原文: