CTI Beginning
(转)
第二讲 CTI通信基础知识
2.1 概述
CTI是计算机语音集成(Computer Telephony Integration)的意思,简单的来说,就是如何将计算机与电信网络连接在一起并能自动化编程处理电话网络业务的一种技术。计算机这个东西在最初设计出来的时候,设计者们并没有为它考虑到做几个连接到各个网络的插口。例如,如果你想把计算机连接到局域网上,你必须在计算机上找到一个可以插局域网网线的接口,才能使计算机通过该接口与局域网连接在一起并访问其他已连接计算机的资源(比如拷贝文件等),这个角色(提供网线插口)目前由网卡来承担了,比如3Com的10/100M网卡。同样地,如果你想让计算机来接电话或通过计算机把电话打到你客户的公司并自动的由计算机向他问好,怎么办呢?此时你就必须首先把计算机和电话网连接起来然后再编写程序实现接电话或打电话。可是计算机天生并没有提供电话线的插口,于是,一些设备制造公司制造了和网卡类似的东西,但是它的目的不是和局域网相连,而是让计算机和电话线相连。这个和网卡类似的东西就叫做电话语音卡,有的人把他叫做CTI卡,它的责任是提供一个电话线路的插口并可以将电话线插到该插口里。然后使用制造此设备的公司提供的编程函数来编写这个语音卡的程序。
和3COM提供网卡相似,现在已经不仅仅能够用来打电话和接电话了,还可以用来收发传真、拨打IP电话、制作企业自动总机、语音信箱、呼叫中心以及所谓的IVR系统。IVR系统Interact Voice Response-交互式语音应答的意思,它是CTI行业里应用得最广泛的系统,正如语音卡最初的目的是用来自动接电话和打电话一样,IVR正是一个用来自动接电话和打电话的计算机系统,比如使用手机拨打电信客户服务中心的电话1000号,电话打入之后你会听到计算机对你说“你好,欢迎使用电信客户服务中心”,当然,用市场上卖的企业总机也能实现自动应答的功能,但是,计算机提供了更复杂和更灵活的能力,它不但可以应答电话,还可以自动的收发传真、动态的把客户的数据记录到数据库等,这些能力是非计算机系统无法实现的。
2.2 电信技术概念和术语
以下提到的术语主要和模拟线路有关,其他的术语解释请参考相关的手册。
2.2.1 模拟信号和数字信号
我们每个家庭或公司都有电话机,并且都有一条线连接到电话机上,通过这个电话机可以打电话和接电话,一般情况下,该电话线叫做模拟电话线,因为它上面传输的是模拟信号,所谓模拟信号就是如果通过示波器来查看线路信号,可以看到信号随说话人声音的变化而变化,它是有规律变化的正弦波信号;而与此相对的数字线路就是传输数字信号的线路。数字线路上的信号使用示波器来看只能看到一些断续的电流跃变,用数学的概念来说就是模拟信号是连续信号,而数字信号是不连续信号(或离散信号)。数字信号之所以不连续是因为它的信号已经被进行了A/D转换(A/D转换是一种使用二进制数字组来代替电流或电压幅值的转换办法),A/D转换后的信号全部被0和1的二进制组代替,因此你在示波器上当然就只能看到代表0和代表1的电压的突变,或许3V代表1而0V代表0。
在数据和语言通信领域中,最容易被混淆的地方之一是在“模拟”和“数字”两个词之 间。大部分人知道“数字”是指信息以1和0的形式存在,但很少有人能将这一事实和以1 和0的格式移动语音信号这一现实需要这两者之间作心理上的联系。关于“模拟”这个词, 人们可能只谈及到语言通信。这里将帮助你作出并理解这两个术语之间的联系。读完后,你可以知道你不仅将成为一名电气工程师,并且能很好地理解它们。如果我们必须理解 某件东西的话,那是:模拟和数字方式是在任意媒介中传送信息的方法。有些媒介主要适用 于模拟,还有一些适用于数字,而其他的两者都合。这有助于理解使用不同传输系统的原因。
正如前面提及的,“网络”最初的发展只是为了提供语音通信业务。AT&T通过Bell公 司及其通信能力而建立的通信电路严格地使用了模拟技术。确实,它变成了一个数字世界, 但它是围绕着语言模拟通信而建造的。那这一切是什么意思呢?
在模拟通信系统中,原始信号(在这儿是指声音)被直接转化成了电信号。模拟信号的特性与两个常变量有关:信号的幅度 和频率。电信号的强度(幅度)随声音的大小而变化,而电信号的频率随声音的音质或音调 而改变。两个可变量(幅度和频率)的变化与原始声波成正比。
一个更生动的例子是设想一些迪土高中的视觉显示,光的显示中能够反映音乐并随着音 乐而变化。在模拟通信系统中,电信号(不是光)是不断改变的。迪士高演奏设备的灯光随着音乐节拍而改变和闪烁。在这儿,灯光随着信号的电气特性而改变。在电信术语中,可以说真正的声音是由撞击声波而产生的。这种声波的撞击实际上是空气分子的移动。专业术语称为压缩和膨胀。
人声是一种很特殊的事物。当我们说话时将产生声音。在一个相对很短的时间周期内, 我们实际上将空气波撞击到一起许多次。举个例子。先产生一个模拟正弦波,然后将其转化为电当量。很简单,假如能得到语音产生的声 音并基于音质和强度对其进行修改,就可以得到这个正弦波,如果用磁场将声音 转化为电,这个波形就将被产生。在零电压基准线附近将电流作360度的旋转。零线周围这个360度的波形被称为一个HZ——得名于指明这一概念的电气工程师。波形在零线开始,并 随着能量的增加而上升,最终达到一个峰值后便开始下降;电能也将从这一高度下降至零线,且继续在零线下降.直到零线下的一点(这被称为波形的负侧)。继续至这一侧的峰值电压后能量也将到达峰值,并开始向零线回升。波形完成了一个360度的完整周期,一个 完整的周期构成1HZ。
人的声带能以每秒100到5000次的速度将声波撞击到一起。简而言之就是人声每秒可 产生高达5000个周期。当转化为电当量后就有5000HZ。为了避免麻烦可简写为5kHZ (意 味着“干”)。有了电当量,我们就有了声波的类比或模拟。这是一个不停变化的值或电能。 幅度和频率每秒都将变化100~5000次。这是电话公司在电信业的开始时所会处理的。然而后来他们又发现人声每秒将产生300~3300个周期变化,或者以3kHZ的电周期作为标准 。和任何通信信道容量一样,电话公司不想也没必要给用户提供得太多,刚好满足能运载语音对话就可以了。这些年来,随着网络的扩展,电话公司将通话带宽限制在3kHz信道容量。这主要是基于成本上的考虑。给定了受限的带宽,我们怎样经过网络进行对话并产生合 适的原始语言复原信号呢?并且怎样做才更便宜呢?产生的频率范围是从300~33001KHZ。电话公司因此也限制我们仅在此范围内使用信道。在使用射频(RF)频谱时,电话公司 将所有容量分为4kHz的块。在每一个41KHZ块(电线或无线电信道)上,他们安装了300到 3300压的频率带通滤波器。落入RF频谱分配区内的任何信号都可以通过。区域外的任何信号 都将被滤除掉。这称为限带信道。因为语音最高可达51’riz,所以也存在对话中超过了这一频 率范围(如有S和P音的单词)并被滤波器削平的情况。这可能听起来不太合理,但它确实会 使线路有点不清楚。人耳和电话机都没有足够的灵敏度,因而也不会有太大的问题。一旦声音 的电当量被产生了(通过电话机或其他设备),电就被送到了线路。
当通话在线路上进行时,线路对电信号的电阻将减小它的幅度。信号会变得越来越弱。 能量的损失将最终导致电能全部被吸收,或使信号不能被识别,这称为电信号的“衰减”。 在信号被消耗完和消失之前只能传输一定的距离。可比喻为一个接力运动员的训练,运动员 尽全力地绕着 1/4英里的跑道跑,当运动员到达 1/4英里的终点时,所有的力量和能量已经 耗尽,运动员也精疲力竭了。假如没有人去接棒,他不得不绕着跑道再跑下去, 那么第二圈将永远跑不完。也就是说这个运动员将绕着跑道跑直到失去知觉倒在地上为止。 为了保持信号在线路上传输,人们使用放大器来增强信号强度。这些放大器 通常的间隔为 15 000~18000英尺。一般情况下,在用户位置和电话中心局之间只需要一个放大器(最多两个)。中心局通常离用户位置较近,平均只有5~7英里。只有在偏远的位置才离中心局较远。
发生在线路上的第二种现象与传输同在。噪声(由线路损耗、电线破损、闪电、电感 应、热等因素引入的)以白噪声或懂懂声的形式存在。它们同时开始并导致信号的变差。噪 声总是存在干线路上,电缆故障会使它增大,进而导致信号变差。不幸的是,随着信号在线 路上的传输,噪声和倍号开始混杂在一起。放大器不能从实际的对话中将噪声辨别出来。因 此放大器不仅增强了信号,它也增强了噪音。这样就产生了更强、但也更嘈杂的信号。而这 些信号又导致极为嘈杂的电路。放大的结果随着距离而积累。放大器使用得越多,最终得到的信号就越差。许多长话线路被不断地放大。这并不意味着电话公司不想做得更 好,而是与设备、电气性能和经济三者的组合有关系。
有意思的是如果模拟技术仍然正在被广泛使用的话,一些数字信号处理(DSP)中的最新进步可以用来在一定程度净化被放大的语音传输。但一种产生纯信号的更好的方法在许多年以前就得到了发展。
关于这些知识可以参考大学通信专业的《数字信号处理》一书,该书上对信号如何转换有详细的讲解。
2.2.2 模拟线路和数字线路
模拟线路就是承载模拟信号的线路而数字线路就是承载数字信号的线路。电信通信网是一个多层结构的复杂网络,它是模拟线路与数字线路的混合体,一般情况下,到用户的电话线(用户线路)是模拟信号的,而电话局与电话局之间(局间线路)的线路有各种形式,模拟、数字线路都有。而数字线路上又可以承载很多具体的业务应用,比如ISDN、中国No.1号线路、中国No.7号线路等等。它们使用数字信号来传输信息。由于通信双方必须遵照某个标准来进行通信,为了通用,国际上对这些信号的含义制定了具体的标准,很多国家在使用由CCITT建议的系列标准。在计算机领域把这些标准称为协议,比如TCP/IP协议、H.323协议等等;而在电信领域则被叫做信令。比如中国No.1号信令、中国7号信令等。其实信令和协议基本是一样的含义,一般情况下可以把它们等同来理解。
2.2.3信令的基本概念
如果要详细的来描述信令,可能需要更厚的一本专门的书才能做到。在本节里,我们只简单地对信令的基本知识做讲解,以使得我们在做模拟卡的程序开发之前,对模拟线路的通信方式和相关的信令有一点清楚的认识。相反的,如果说得太多了就有可能会喧宾夺主,由于本书的目的是一个逐步渐进引导学习的过程,不可能罗列太多的概念,起结果不但不能使学习过程更轻松,反而会适得其反使概念更模糊不清。
上一个小节提到了,信令是通信双方用来控制通信过程的一种手段。下面举例来说明一个典型的信令过程:
Ø 当用户把电话听筒摘起的时候,电话机便向交换机发出一个摘机信号
Ø 交换机接收到此信号后,向用户的话机送拨号音“嗡……”
Ø 此时开始拨号,并等待对方振铃
Ø 对方摘机,通话开始
Ø 通话完毕,挂机
Ø 系统释放线路的占用,恢复原样
在上面的过程里所提到的摘机、允许拨号信息和被叫的回铃音等等,主要是用来建立双方的通信关系,象这种用以建立、维持和解除通信关系的信息被统称为信令。
一个用户在通过用户设备、交换设备、传输设备和另一用户通信的过程中,要用到许多的信令,为了更深刻的描述这一过程,下面使用图示来说明两个用户间如何通过交换局来进行通信的例子:
主叫电话
被叫电话
发端局
终端局
用户线 中继线 用户线
摘机信令
拨号音
拨号 占用信令
选择信令
回铃音 振铃信令
应答信令 摘机应答
通话过程
复原(挂机) 后向挂机信令 复原(挂机)
前向拆线信令
拆线证实信令
用户信令
局间信令
通话持续过程
用户通话流程
如上图所示:
Ø 当主叫用户摘机时,摘机信令被发送到发端局
Ø 发端局立即向主叫送拨号音,用户开始拨号,送出拨号信令
Ø 发端局根据电话号码选择路由和中继线路,向终端局发送中继占用信令
Ø 占用证实后发端局将被叫号码发送到终端局
Ø 终端局根据被叫的线路状态对被叫的线路震铃,并给主叫送回铃音或忙音
Ø 当被叫摘机时,摘机信令从被叫送到终端局并被转发到发端局,开始记费
Ø 双方开始通话
Ø 如果被叫用户先挂机,挂机信令由终端局发向发端局,发端局通知主叫挂机;如果主叫先挂机,发端局向终端局立即拆线并发送一个拆线信号给终端局,通知终端局拆线,终端局拆线后发送一个拆线证实信号给发端局
Ø 一切设备复原
以上一个简单的通信模型,实际情况要比这个复杂得多。传输的信令数据的格式可能有所不同,比如直流脉冲、音频编码、分组消息等。
用来规范化信令传输过程的规则叫做信令方式。
用来完成特定信令方式的全体通信设备总称为信令系统。
2.2.4 信令的分类
可以将信令分为以下三类:
1. 按照信令的传送方向 – 分为前向信令和后向信令两类。在通信过程中,主叫发出的信令叫做前向信令,发向主叫的信令叫做后项信令,区别如下:
主叫发出信令 – 前向信令
主叫接收信令 – 后项信令
被叫发出信令 – 后项信令
被叫接收信令 – 前向信令
2. 按照信令的工作范围
按照工作范围,可将信令分为用户线信令和局间信令两类。
用户线信令 - 也可叫用户信令,它是用户和交换局间使用的信令,它们在用户使用的模拟线路上传送。用户线信令主要包括:用户状态信令,选择信令、铃流和信号音。用户状态信令是由电话机的叉簧产生的,它闭合或切断支流电路,用以启动和恢复巨内设备,包括摘机信令和挂机信令,是直流信号;选择信令是用户拨出的被叫用户的电话号码数字信令,在使用号盘话机及直流脉冲话机的情况下,发出支流脉冲信令;在使用多频按键话机的情况下,发出双音多频信令(即DTMF信令);铃流及信号音是交换机向用户设备发出的震铃信号或在话机的受话器中可以听到的声音:拨号音、回铃音、忙音、长途通知音、空号音等等。用户线比较简单,长期以来这部分信令的内容及功能一直没有大的变化。
局间信令 – 是交换机与交换机之间传输的信令,这中信令比较复杂,这种信令包括
了监视、选择和网络管理三种功能。此处不做讨论。请参考相关的书籍。
3. 按照信令的传送信道
按照信令传送的信道来划分可分为随路信令(CAS)和公共信道信令(也叫做共路信令方式)。
如上面所说在模拟信令中,拨号和电话机按键信息使用两种方式的信号方式,脉冲和DTMF信令,一般现在的电话机都可以使用脉冲和DTMF信令两种方式,由于这两种方式在模拟卡编程中是一个重要的概念,我们使用下一节来讲解。
2.2.5 脉冲拨号和DTMF拨号
脉冲就是通过话机控制开关电流来形成直流脉冲的一种传送数字信息的方式;所谓DTMF是指Dual-Tone Multiple Frequence(双音多频)的意思,它是由两个不同频率的信号音来组合成一个信号音而成的。
模拟用户线路使用脉冲和DTMF来传输代表电话键的信号。下面是这些信号音的列表:
2.3 计算机语音技术相关标准
CTI跨越计算机与电话两个领域,怎样将它们结合起来,怎样为它们的结合创建新的平台开发软件?标准无疑成为CTI发展中最至关重要的因素。
ECMA在1988年开始制定在计算机与交换机之间使用的标准协议,被称为计算机支持的电信应用(CSTA),这项标准的第一版和第二版分别于1992年和1995年得到了批准,该项标准侧重于程控交换机客户端的CTI解决方案。目前,CSTA已成为PBX和ACD等专用领域内的主导标准。
1989年,美国国家标准学会开发了交换计算机应用接口(SCAI),SCAI的第一版和第二版分别于1993年和1995年得到批准。该项标准特别侧重于程控交换机中公共网络(Centrex)方面的CTI解决方案。目前,这一协议的研究工作已停,其功能略逊于CSTA,但它的定义更为严格。
ITU曾致力于开发一种国际解决方案:TASC———用于交换机和计算机的电信应用,由于种种原因,TASC行动于1994年被束之高阁。
目前,CTI领域中最多的标准还是应用编程接口(API)。提供者既有计算机硬件厂商,如IBM的CallPath和Tandem公司的CAM,又有软件供应商,如微软的TAPI和Novell的TSAPI,也有一些交换机供应商。
微软的Windows Telephony API就是用Windows应用程序控制通信设备,如PBX等。TAPI提供了各种级别的功能:从简单的电话到全面扩展的电话。Windows 3.X将TAPI作为开发人员的工具箱提供;Windows 95和Windows NT将TAPI作为其标准组件提供。
由于Novell公司目前在局域网操作系统市场上的统治地位,Novell电话服务APT(TSAPI)十分重要。TSAPI是Novell与AT&T合作开发的,适用于26种交换机,于1992年发布。TSAPI是用于CTI的客户机/服务器方案,建立于CSTA协议定义基础之上。
IBM公司的CTI API是CallPath服务架构(CSA)的一部分,1994年,发布了支持客户机、服务器操作的升级版本。目前,CallPath支持的交换机数量最多,而且IBM的交换服务器中的交换接口软件很可能会形成Versit TSAPI的基础。
尽管TAPI具有一些媒体控制功能,但上述API均着重致力于电话控制。媒体控制包括从设置一个语音识别资源的能力,到对视频显示选择的控制。在这方面,专注于CTI的厂商Dialogic以其信号处理系统架构(SCSA)开始从事这一领域的研究工作。1995年,标准被提交给新成立的企业计算机电话论坛(ECTF)。该论坛由范围广泛的CTI厂商组成,这些厂商共同对SCSA进行了开发和改造,将其发展成为一种媒体控制API标准,称为S.100,于1996年发布。媒体控制API的主要应用领域是建立基于PC机的媒体处理系统及基于PC机的语音处理系统的开发。
1994年,AT&T、Apple、IBM和Siemens公司组成一个名为Versit的业界组织。该组织的目标是共同开发一种用于CTI的客户机/服务器架构,并将涵盖电话、PBX、计算机、网络、服务器和PDA的标准,它的目标还扩展到实现个人数据产的交换和来自不同厂商的语音、公告板和视频产品的相互连接。Novell公司则与Versit共同开发了Versit TSAPI。目前,Versit TSAPI或S.100能否成为业界的标准尚不清楚。
在多媒体通信中,还有一个重要的业界组织就是国际多媒体电信会议协会(IMTC),IMTC的基本目标就是将所有参与多媒体电信会议产品和服务开发的组织联合起来,帮助制订所要求的标准并推动它的广泛采用。该协会提供了对ITU所采纳的H.320和T.120系列电信会议标准的地支持,还准备为T.120和H.320通信协议开发API。