PDF档案格式中文嵌入现况与问题探讨
作者 clhhome
发帖于: 2004-05-05 23:53
摘要
在目前的状况来说,英文PDF档案格式在网路上、与文件交换的应用上已经可以说非常成熟了,但是中文方面的应用还比其他亚洲国家存在着更多的问题,以致於其应用的范围无法普及。本文的主旨在於探讨PDF档案格式的组成、制作以及制作後的档案特性,是以一种测试及探讨的方式来制作的。
壹、前言
由Adobe公司所开发的PDF档案格式,打着"跨文字、跨语言、跨平台、跨媒体、跨软体、跨世纪的电子文件交换格式",以及"这就是未来"的口号出现在我们眼前,这样的一种文件,它到底有何特别之处,有什麽能耐呢?
贰、何谓PDF档案
所谓「PDF可携式文件格式」是一种开放式电子文件格式(符合美国Adobe公司Acrobat 之PDF标准),不论使用何种电脑平台或应用软体编辑的文件,几乎都可转换成「PDF」格式互通使用。除了在萤幕上浏览与印刷效果(文字、图型、影像)完全相同的式样外,更提供多种注记工具让使用者更有效率地阅读文件。
通常我们会把Acrobat及PDF看作是同一件事,PDF是「Portable Document Format」的缩写,它主要目的就是要在各种不同的电脑平台上创造出一个共通的文件格式。换句话说,就是希望不管在那一种电脑上制作的文件,只要能转成PDF格式,拿到另一种电脑上就能毫无困难地打开阅读,更能维持制作当时的格式与版面,看起来跟原来的格式一模一样。
这个问题是在不同电脑平台之间长期以来所存在的,常常在PC上制作的文件拿到MAC上,如果没有对等的软体或版本,即使有同样的软体,版本不同或中、英文版不同可能都没办法互相打开对方的档案,因而造成相当大的不便。如PDF格式的出现,就能使一个文件在不同平台上畅行无阻,而且看到的样子都一样,在也不用再花力气把档案格式转来转去。
叁、PDF档案格式介绍
Portable Document Format可携带文件格式是将难以处理的PostScript码精化成一个页面与物件的资料库。它包含字型、影像及经压缩的向量物件,它是高度精简的文件格式。正如其名-可携带文件格式-它为统一可预测的高品质输出及可转用於多媒体用途作最佳化处理。PDF具有设备及媒介独立的特性,它支援CMYK、特殊色及合并的色域定义。PDF是一个支援补漏白、拼大版及可转换之页面取向的档案,一般人可以利用免费的Acrobat Reader软体在麦金塔电脑、视窗环境、Unix及网际网路浏览器浏览。
制作PDF的程序有许多种,可以制作出许多不同性质及不同用途的PDF档。例如其中一种方法叫做"蒸馏",利用Adobe Acrobat Distiller软体,可以将PostScript档案转换成PDF档案;另外也可以利用一种可选择周边设备的工具叫Adobe PDF Writer,利用它可自动将文件储在成PostScript档案,再自动转换成PDF档案,或者利用程序巨集或其他自动功能也可以将单独或多个PostScript档案转换成PDF档案。
在以往的印前工作流程里客户若需作最後一刻修改,则需回原编辑应用程式修改,再重新列印一次,而在PDF工作流程中,只需使用Acrobat 直接修改PDF档,无需再重回原编辑应用程式修改列印。
一、PDF档案组成
1.第一层包含文件的文字与图像。
2.第二层包含增效部份,例如书签,超文字连结、导览等。
3.第叁层包含档案的基本资讯,例如字形资讯和交换参考表。
二、PDF档案格式的特点
PDF为PostScript纯化过後的档案,它已经去除了PostScript在解译时所可能发生的不确定性,所以成功的转换成PDF档後,也就确保在後续的工作流程中能顺利的进行。您可以将任何应用软体产生的页面转换成PDF档案,完整的将原文件之文字、图形、影像、声音及链结嵌入PDF档案之中,让你可以在最後一刻做编辑修改而无须重回应用程式修改列印。
在转换时可以选择将文字包入PDF文件之中,即使一个中文PDF档案亦可在无安装中文字型的纯英文系统中正确的开启列印,真正的达到档案交换网路无国界。PDF亦可转换成内含字型的EPS档案,而转换成的EPS档案可以再组版或其他软体汇入再使用。
(一)高压缩
PDF档案使用多种方法来达到缩减原PostScript文件的目的,在图片压缩的部分亦可支援述种格式压缩,一般档案通常可以压缩至原来的数十到数百分之一。尤其当使用者要在网路上发行电子文件时,为了速度的考虑,高压缩比就显得特别重要。
1.JPEG: Joint Photographic Expert Group专业摄影联合组织,所推广的是一种减损性的静态影像压缩演算,为一种破坏性的压缩方法来压缩影像品质,其应用范围对於彩色的连续调图片较为适合。
2.Zip 是用Jean-loup Gailly Mark Adler的Zlib套装软体的延伸开发而成,压缩方式是适台有花纹、底纹或大片重复影像图档。Acrobat 1.0分别提供了4bit及8bit的不同压缩比的演算,具取样方法是以重复的资料为主。
3.CCITT Group1.CCITT Group4 是国际电话电信组织(International Coordinating Committee for Telephony & Telegraphy)所订定的压缩标准,用来压缩黑白影像绘图软体所绘制的图档,或单色扫描图档以及线条稿。Acrobat 1.0提供这两种压缩方式适合单色调线条稿,如传真品质的档案。
4.Run length 是针对单色线条稿的压缩,尤具有大区域的单色色块图档。
5.Compress text & Line Art 文字及线条都可以加以压缩。 <注一>
(二)设备独立
一般 PostScript档案中包含了多种可能的合法程式码,在某些条件下 可能无法运行。例如那些依赖某些特殊字体结构、或输出设备的程式码。相反的,PDF格式不含任何程式结构,因而使得它更加安全,也更适合 以电子资料形式储存或传输。PDF是为整合多种输出选项的网路所设计的,它是标准化及设备独立最佳化输出格式。 对中文PDF文档之要求,不采用中文系统时,仍可独立显示中文;采用中文系统时,则可搜寻中文词汇。
(三)各页独立
PostScript文件的各页间是相互关联的。这意味着你在跳到某页之前必 须把它前面所有的页都处理过。而PDF格式并没有这个限制。你可以直接 阅读PDF档案的任何一页,无须考虑其他页。
(四)注记
PDF档案可以包含各种各样的注记--例如书签,缩影,链接,备注,文串,标识和媒体盒。你可以用这些“注记”以提高档案的质量及可读性。这些“注记”更可以有效的协助档案管理工作--例如制作、发送、 签注、修正、完稿、以及出版发行。
(五)档案保护
PDF档案可容许设定密码和其他多种保护方式,以防止非法使用。例如 必须使用密码才允许阅读、允许或不允许列印、复制、签注、或修改。
肆、中文PDF档案制作流程
一、网页格式转存PDF档案格式:
PDF档案在英文字型的产生方面,已可轻而易举的制作,但在中文部分入前尚无法轻易地将网页直接转为PDF档,而必须间接的*一些转换才能将网页转为PDF档。在目前的情况来说呢,在Acrobat1.0中以开启网页的功能只能用在英文网页上,只需使用Web Capture输入URL即可将英文网页转成PDF档,且可保留其超连结部分的格式。但在中文网页部分,中文字体则会变成乱码,所以必须藉助Acrobat writer以及Distiller来列印PDF档案,虽然无法保留其超连结的格式,但可设定列印超连结表。
二、排版软体转存PDF档案格式:
目前常见的排版软体对於PDF档案格式直接的支援程度并不高,大部分的排版软体无法直接转存PDF档,而必须*列印的方式来产生。对於支援直接转存PDF档案的软体来说,Microsoft Office系列算是最完整的了,基本上只需要将Acrobat 1.0在Office之後安装,即可在工具列产生一个Icon,使用者只需直接点选即可启动一名为PDF Maker的程式,轻易的将文件转为PDF档。其他如Page Maker、Quark Xpress或Illustrator则必须加装外挂程式才可以直接转存PDF档。基本上各种软体所产生含中文字体的PDF档案,大致上可分为以"Acrobat Writer″、"Acrobat Distiller″以及"曲线″叁种产生方式,其中档案容量最大的是转为曲线的方式,其次为Distiller产生,最小的是以Acrobat Writer产生。当以相同的格式产生,使用的软体不同时,其档案大小会因为内含资讯的不同而有些少许的出入,但其档案的特性却是相同的。
其大致上的制作流程如下: *********
三、PDF档案格式在於输出时的作业流程:
PDF档案在专业输出时需搭配PostScript 3之RIP方能发挥最大生产效能,因为PostScript 3直接支援PDF档案格式,当档案列印至PostScript 3 RIP时,RIP只需进行处理过网,所以处理速度相对提升,且列印品质较佳(如渐层)。而若您原有的RIP只支援PostScript Level 2,则在列印PDF档案时会需要多一个转换成PostScript Level 2的流程。
前端在Mac平台上的排版软体使用CID ATM字型显示及编辑,产生PDF档案;後端再使用Postscript字型或相容输出机输出。
伍、亚洲字型嵌入现况
一、字型编码说明:
亚洲字型要嵌入PDF档案,比英文字型的嵌入需要更多的软体,以及更复杂的技术。在此之前我们必须说明亚洲字型以及英文型的差异点,以及其在不同平台上的差异点。在亚太地区,虽然都有使用汉字,但每个国家或地区所使用的内码都不相同,兹就各地区的编码介绍如下
(一)台湾地区
1.Big 5:俗称大五码
2.Big 5 plus:Big 5扩编码
3.CNS11643:中文标准交换码
(二)中国大陆
1.GB2312-80:通称国标码
2.GBK :汉字内码扩展规范
(三)日本
1.Shift JIS
2.EUC-JIS
(四)韩国
1.KSC 5601
(五)其他:
二、编码原则:
1.文字之选择及字体悉依"国字标准字体表"为基准
2.以2个位元组(byte)为中文码编码单位,并以16进位制之文数字表示之
3.符合CNS 5205及CNS7654之通信定则
4.依字之使用频率而编排於各不同的字面
5.每字面按先笔划後部首的排列顺序来编订字码
三、CID 字型与TrueType字型,PostScript字型的关系:
CID是取自於Character ID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。Acrobat并非一定需要使用CID字型,亦可以使用TrueType字型,但在使用TrueType字型时若在印表机驱动程式字型选项中若选择将字型传送为Type 1时,则嵌入於PDF中的中文字无法再做增字的动作,而选择将字型传送为Type 42时,则嵌入於PDF中的中文字可修改增减(修改时系统中需有相同的字型)。中文PostScript字型目前尚无法适用於PDF档案格式。
内嵌字型的最大优点便在解决文件产生者与输出者之间字型不同或对应错误的问题,现在PS流程是用字码对应,且必须是同一家字型公司的同一系列版本才可对应,字型内嵌可将此问题一劳永逸的解决。
四、Acrobat Reader 能显示包含 CJK 文字的 PDF 档案的方式:
要显示 CJK 文字,有两种方式。一是在建立 PDF 档案时,作者可以嵌入所有文件中使用到的字体,包含 CJK 字体,只要字体可以被嵌入就行。任何语言版本的 Acrobat Reader 都可以用嵌入的 CJK 字体来显示 PDF 档案。但是因为嵌入字体的 PDF 档案可能会占太多空间,所以作者可能在建立档案时选择不嵌入文件中使用的所有字体,这是第二种方式;如果在这种情况下,Acrobat 或 Acrobat Reader 的使用者若要查看该 PDF 档案,就必须使用正确的亚洲文字字体集。
五、目前亚洲字体集中所包含的字体:
目前有四个亚洲字体集 (繁体中文、简体中文、日文与韩文)中,每个都包括有 serif 与 sans-serif 字体。 而 PDF 档案中嵌入的亚洲字体的类型,在Windows 平台上可嵌入 TrueType 字体,而在 Macintosh 与 Windows 平台上可以嵌入 CID 格式的 Adobe PostScript 字体。较旧的 OCF 格式的 PostScript 字体不能嵌入,此外,文件中的字体必须容许嵌入。 <注叁>
嵌入字体使PDF档案大小改变的因素取决於文件所包含的字体数量及字元多少。大体而言,一般文件中每嵌入一个 C、J 或 K 字体,PDF 档案的大小就会增加 2 MB 到 3 MB 。
Macintosh 版 Acrobat 1.0 中的「MakeCID 」可将 TrueType 字体与较旧的 OCF 格式的 PostScript 字体转换成「Width-Only」(仅具宽度资讯) 的 CID 字体。这些 CID 字体仅包含 TrueType 或 OCF 字体中使用的罗马字元的宽度资讯,Distiller 在建立参考原始 TrueType 或 OCF 字体的 PDF 档案时,需要用到这种字形。
如需更多资讯,请参阅「MakeCID」公用程式资料夹中的文件。如需在罗马语言的作业系统中建立包含 CJK 文字的 PDF 档案,仅具宽度资讯的 CID 字体就可派上用场。 对於在罗马语言的系统上建立包含 CJK 文字的 PDF来说,Acrobat 中的 PDF Writer是不能在罗马语言的作业系统上建立包含 CJK 文字的 PDF 档案的。然而,如果 Distiller 可以使用它所要制作的 PostScript 档案中所参考的字体,那麽 Distiller 就能建立含有 CJK 文字的 PDF 档案。如果 PostScript 档案含有嵌入的 TrueType 字体,您就可以在任何平台上制作此 PostScript 档。
此外,针对目前 Adobe Type Library 中的所有 CJK 字体,以及 Macintosh 或 Windows 系统中常见的 TrueType 字体,Distiller 都附有「Width-Only」的 CID 字体。有了这些字体资讯,Distiller 将可以在任何平台上均可成功制作 PostScript 档案。此外,如果制作的 PostScript 档案中有其他的字体需要转换,还可以用「MakeCID」公用程式建立仅具宽度资讯的 CID 字体。
陆、中文繁体字嵌入现况以及其所面临的问题
目前来说,支援中文PDF档案字型内嵌的字集在Mac上只有文鼎的CID ATM字型;在PC上有文鼎的CID PostScript字型,以目前面临的问题来说,第一就是档案大小,第二就是目前在网路上使用的USER并未普遍在个人PC上安装相关的浏览软体。特别是亚洲字型,除了浏览软体外,还必须加装亚洲文字字集方可开启嵌入亚洲字型的PDF档案。此外在印刷业上尚未能使用PDF档输出的做法。
柒、未来解决方案
PDF档案是一种非常具有发展潜力的档案格式,举凡各种格式的图文档案,皆可转成PDF档,未来无论是Microsoft系列的软体、Corel系列、Adobe系列,都将支援PDF档案格式的产生、修改、编辑以及输出。但就目前来说,除了Adobe Acrobat系列有完整的功能以外,其他软体的功能都还尚未健全,而且其他相关应用软体的种类太过繁杂,有待相关的软体开发公司开发出更具整合性的应用软体。 而档案大小的问题,只有两个方法,治标的方法为将PDF以更高的比例压缩,以利传输;而治本的方法还是必须一方面开发更宽频的网路;一方面使之更普及,以利大量的资料在网路上传输。
捌、结论
PDF档案格式并非Acrobat特有的档案格式,例如华康的DynaDoc档案格式亦为可携式文件的一种,其大致上的特性与Acrobat的PDF档案格式相近,只是功能上有些许的出入。但基本上的目的、用途、产生方式以及浏览方式是非常相近的。
PDF档案尚有相当大的研发以及应用空间,例如在电子报方面,就是一个非常好的PDF档案应用实例,因为一般的电子报大多只有大量的文字,缺少图片以及活泼的版面,使得阅读者在浏览电子资讯时,会觉得面对满版僵硬的文字,而降低阅读的意愿;如果能将电子报编排成一般报纸的版面,以PDF档的格式表现在读者面前,如此有了活泼的版面以及图片,一定会增加使用者阅读的意愿;另外,PDF档第二层的超连结功能亦可让使用者从头条标题上直接连结,将页面导引到报纸的内文中,而省去了逐页浏览的时间。当然了,这部分的构想还得等使用者习惯於以Acrobat Reader阅读档案,以及各种问题解决後,才能进入实验及应用阶段,这将是另一个网路出版的新出路。
玖、附注
【注一】Acrobat4.0电子文件新世纪P59~60
【注二】图片取自文鼎公司网站
【注叁】针对目前可支援Distiller作嵌入的文鼎字型来说,只要为合法的原版字型,文鼎就允许使用者嵌入。
【注四】使用Distiller将字形嵌入之文字,因失去文字特性,故无法做搜寻及复制。
名词解释
(一)PostScript:
PostScript为美国Adobe(http://www.adobe.com)公司於1985年所发表的文件描述技术, Adobe并利用这个技术, 创造着名合乎PostScript技术的字型, 并从而改变正个印刷工业.
PostScript可以精确的描述平面绘制任何文字及图形. 现今PostScript的技术已经非常普遍的使用在印刷领域, 包括萤幕显示(Display), 雷射印表机(Laser Printer), 输出机(Imagesetter), 数位印刷机(Digital Printing)..等等输出设备. 而与PostScript技术搭配最重要的是PostScript字型, 使用者可以透过PostScript技术调整抹些参数, 而改变字型的大小, 阴影/立体/空心/粗细等特殊效果. 由於PostScript在印刷方面卓越表现, 目前世界上主要的文献几乎多是以PostScript的形式出现. Adobe1997年4月发表了更进步的PostScript 3 强调增进品质及彩色能力及网际网路列印功能.
(二)TrueType:
TrueType字型格式为美国Apple及Microsoft所共同制定. 最先使用於Apple的Macintosh系列及Microsoft Windows 3.1, 而目前Apple的OS 8.0及Microsoft Windows 95/NT也都使用TrueType作为字型格式 基本上TrueType和PostScript一样, 都是使用贝兹曲线(Bezier Curve)来描述的外框字. 字型可以作任意尺寸的放大缩小, 或作其他属性的变化.不过由於Apple及Microsoft的作业系统都直接支援此字型格式. 所以并不需要如PostScript一样, 外挂(Adobe)Type Manager之类的程式.
(叁)ATM:
ATM(Adobe Type Manager)的功用在於管理Type 1字型的使用,ATM会自动将Type 1外框字点阵化以用於萤幕显示或印表机列印,若所欲列印的印表机为PostScript印表机,则ATM会将字型下载至印表机,由印表机做点阵化外框字。而欲列印的印表机为一般非PostScript印表机时,则ATM会自动将Type 1外框字型点阵化再传送至印表机。
(四)CID:
CID是取自於Character ID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。
(五)Unicode编码:
(Unicode编码)即为ISO 10646国际编码标准,完全符合Microsoft Office 2000及Windows 2000之字型编码规格,在单一作业系统下即可输入多国文字,使跨国文件的制作变得很轻松
1.Unicode :
Big 5:为目前在台湾普遍所使用的业界标准,Big 5码包括第一字面5401个汉字,第二字面7652个汉字及440个符号,目前支援Big 5的软硬体包含Windows 95/NT,Apple OS,倚天中文系统,点阵印表机,喷墨印表机,雷射印表机,等等软硬体设备都支持此内码,但由於台湾的特殊环境,所以并非只使用Big 5码为唯一的内码,其他尚包括如金资码,财税码,电信码,海关码,IBM 5550码,户政码,IBM主机码,公会码(TCA),王安码,等等,都分别使用於各种应用领域。
2.Big 5 Plus:
虽然Big 5字集为台湾最普遍使用的字集,但由於Big 5所定义的字集只有13053个汉字,并无法满足,专业使用者的需要,尤其是政府部门,更无法满足现阶段文件交换的需要,所以在"财团法人中文电脑推广基金会"的主持下完成对Big 5码的扩编,详细资料可参考"财团法人中文电脑推广基金会"网站(http://www/cmex,org,tw),包括缘由,码本,…等等相关资讯。
3..CNS11643 中文标准交换码:
CNS11643 中文标准交换码,一般简称 CNS 码或 CNS11643 ,因中央标准局公布及修订之先後而有二个版本,一般称为 CNS11643-1986 版(1986公告版)及 CNS11643-1992 版(1992年修订版),此二个版本之差异仅在於其所编定之字数不同。75 年公告之 CNS11643定义 11.051个汉字,81 年修订版扩编为48,027 个汉字。 75 年公告之 CNS11643 名称为「通用汉字标准交换码」,於 81 年扩充後修订 CNS11643 名称为「中文标准交换码」。两个电脑系统要交换资料时,以两方皆认可之码传输,此称为交换码,交换码之设计须符合国际标准。因此一般在电脑内部处理时使用内码,而在传输时,再转换为标准交换码。
4.GB2312-80:
GB2312-80为中国大陆最为普遍使用的内码,不论在电脑作业系统如Apple Machitosh或Microsoft中文Windows简体版,都是以GB2312-80为内码,至於其他周边装置,如印表机,软体,标签印字机,及其他各种软硬体也都是以GB2312-80为内码,即使中文Windows 95虽以GBK为内码,但仍与GB2312-80相容 GB2312-80共规范了6763个汉字及682个符号,内容主要也都是简体化过的汉字,与Gb2312-80相对应的为GB12345-90,基本上GB12345-90仍保留原来繁体字的样子,但码序与GB2312-80相同,另外增加了100多个多对一的汉字
5.GBK:
汉字内码扩展规范,简称GBK,Chinese Internal Code Specification GBK工作小组於1995年10月成立,并於1995年12月完成GBK规范,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20901.总共收录了883个符号,21003个汉字及提供了1894个造字码位
由於GBK的编码,在与GB2312-80的部分采用了GB-2312完全相同的码序与字样,所以市面上所有的合乎GB2312-80的文件,档案及程式都可以在合乎GBK规范的系统上正常运行,目前Microsoft简体版中文Windows 95就是以GBK为内码,又由於GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应, Unicode(http://www,Unicode,com) :(Universal Multiple Octet Coded Character Set) 国际标准组织於1984年4月成立IOS/IEC JTC1/SC2/WG2工作组,针对各国文字,符号进行统一性编码,1991年美国跨国公司成立Unicode Consortium,并於1991年10月与WG2达成协议,采用同一编码字集,目前Unicode是采用16 bit之编码架构,其字集内容与ISO 10646之BMP(Basic Multilingual Plane)相同,Unicode (Unicode Consortium)并於1992年6月通过DIS(Draft International Standard),目前版本为Unicode v1.0於1996年公布,内容包含符号6811.汉字20901.韩文拼音11171.造字区6400,保留20249共65534个码位。
参考资料
1.Publishing & Production
2.http://www.agfahome.com.tw/ (台湾Agfa首页)
3.http://www.adobe.com (Adobe公司首页)
4.http://www.arphic.com.tw/ (文鼎公司首页)
5.http://www.dynalab.com.tw/ (华康公司赏页)
6.Acrobat 4.0电子文件新世纪