除了 Java 的编译器和虚拟机器之外,还有一些相关的编译技术,本文章试图做一个简单的说明。
JIT 编译器
传统的 Java 虚拟机器很愚蠢,将一道 bytecode 的指令翻译成机器码之后,马上执行这些机器码,执行完这批机器码之后,就把这些机器码丢了,接着再翻译下一道 bytecode 的指令,继续下去 ...。即使下次执行到以前执行过的 bytecode 指令,依然要重新翻译成机器码才能执行,如此一来,效率当然不好。
使用 JIT 编译器(Just-In-Time compiler)技术的虚拟机器比较聪明,会把常常执行的部分在第一次先翻译好放在内存,以后再次执行到这里时,就不用再翻译,直接从内存取出机器码即可执行。这么一来,只要你的内存够大,JIT 编译器的技术够好,你的 Java bytecode 执行速度也可以逼近纯编译式的程序。
其它程序语言的编译器
任何档案只要符合 Java bytecode 的格式,就可以被 Java 虚拟机器执行。制造出 Java bytecode 的方式有许多种,不一定要使用 Java 语言来写程序,才能编译成 Java bytecode。Java 是语言也是平台,你可以不使用 Java 语言(也就是 Java 编译器),只使用 Java 平台(也就是 Java 虚拟机器)。只要某语言有提供编译器,能将该语言的原始码编译成 Java bytecode 格式,就可以在 Java 平台上执行。
据我所知,目前已经有下列语言提供兼容于 Java 平台的编译器(以英文字母顺序排列):Aardappel,Ada,Agora 98,BAMBOO,Basic,Bistro,Bolero,C,C++,CLIPS,COBOL,Correlate,Dawn,E,EcmaScript,Eiffel,Foo,Forth,Fortran,Funnel,Haskel,Hojo,JavaScript,Jickle,JIF,Jinni,Lisp,LL,LLP,Logo,Luck,MINERVA,Mini,ML,Modula-2,NetRexx,Nice,Oberon-2,Pascal,PLAN,Pnuts,Prolog,PS3I,Python,Sather,Scheme,SELF,Simkin,Small Talk,Tcl,WebL,Yassl,Yoix,Yoyo。
原生编译器
如果你不在乎 Java 程序能否跨平台,你希望 Java 程序能如同 C/C++ 一般被编译成机器码而非 Java bytecode,那么你可以使用 Java 原生编译器(native compiler)。目前已经有不少这样的产品可以使用。
Java 原生编译器有两大类,一类可以把 Java 的原始码编译成机器码,另一类则可以把 Java bytecode 编译成机器码。
反编译与混淆器
Java bytecode 因为档案格式简单,信息保留完整,且指令是最简单的堆栈式(stack-based)架构等因素,所以很容易被反编译(de-compilation)。反编译指的是和编译相反的过程,对 Java 来说,反编译就是把 Java bytecode 转换成 Java 原始码的过程。
为了防止你辛苦地开发出来的 Java bytecode 被他人反编译成原始码,你可以透过混淆器(obfuscator)将你的 Java bytecode 转换成更混乱的 Java bytecode,执行起来效果一样,但是被混淆过的 Java bytecode 比较不容易被反编译。你通常要为此付出一点代价,因为混淆过的程序执行速度通常会变慢。且混淆器只能增加反编译的难度,不能保证你的程序一定无法被反编译成功。毕竟道高一尺,魔高一丈,如果有人愿意花许多时间和精力反编译你的 Java bytecode,你根本就无法拦阻。
组译与反组译
汇编语言(assembly)是一种非常接近机器码的语言。将汇编语言转成机器码的工具称为组译器(assembler),反过来将机器码转成汇编语言的工具称为反组译器(dissembler)
对于 Java 虚拟机器来说,Java bytecode 就如同它的机器码,有没有一种语言是很接近 Java bytecode 的呢?也就是说,Java 有没有的汇编语言呢?基本上,Sun 并未定义 Java 的标准汇编语言,但是有一些人定义了自己的 Java 汇编语言,并提供 Java 的组译器(甚至反组译器)。例如 Jasmin 以及 javaa 都是 Java 组译器。
前处理器
前处理器(pre-processor)也称为前编译器(pre-compiler)或前翻译器(pre-translator),其目的在将源码中不符合语言规范的部分转换成符合语言规范的形式。比方说:我们可能在 Java 源码中除了使用 Java 语言之外,还穿插使用自订的语法。这些自订的语法无法被 Java 编译器处理,所以我们必须先透过一个前处理器来将自订语法的部分转换成 Java 语言,然后就可以交由 Java 编译器处理。
目前有不少 Java 的前处理器,例如 iContract、SQLJ,都是用来扩充 Java 语言之用的。
最佳化工具软件
一般来说,最佳化有两种:
1. 让档案体积变小,可以节省储存空间并加快网络传送速度。
2. 让执行速度变快。
对于 Java 来说,还有第三种最佳化:
3. 让程序结构变乱,不容易被反编译。也就是前面提到过的混淆(obfuscation)。
这三个目的之间常常互相排挤:结构变乱,通常会使得程序变慢,且体积变大;体积变小,通常会使得速度变慢,且结构变整齐;速度变快,通常会使得体积变大,且结构变整齐。