网际交换技术
Internet[1] 不是单一的计算机网络,而是一个由许多较小的计算机网络 组成的全球性网络。在运行所需的硬件和软件方面,那些构成 Internet的较小的网络千差万别。由于人们采用了一套共同的网络 协议,这些计算机网络结合起来,就形成了独一无二的Internet;这 一套协议合起来被称为传递控制协议/Internet协议(TCP/IP - Transmission Control Protocol / Internet Protocol)组。
Internet中使用的技术可以上溯到60年代末期人们对计算机网络的 研究,其发起者为美国国防部高级研究项目局(Advanced Research Projects Agency,简称ARPA或DARPA)。十几年以后, 同样是在美国,国家科学基金会(NSF - National Science Foundation)开始了一个建立一系列研究中心的开发项目,以重 点研究巨型计算技术的前景。继这个项目以及诸如1987年密 执安的Merit网络公司(Merit Network, Inc.)完成高速国家科学基 金会网络(NSFNET - National Science Foundation Network)的 改建等后继项目以后,NSF在Internet的发展中起了至关重要的 作用,并且迅速将TCP/IP的硬件和软件应用于美国的研究领域和高 等教育领域中。从历史的角度来看,对这一出乎寻常的发展起关键 作用的至少有两个的政策性决定, 它们都与NSFNET的目的和应用相关。
第一,NSFNET项目的重点在于将机构与网络连接起来,而不是与研究者 个人连接起来。一旦一个机构与网络相连接,对于这一连接的管理 和使用就成了该机构的责任。这一政策使得组织能有很多的自由, 以决定技术如何能最好地在局部的水平上得到应用。第二,有一个 早期的决定使得NSFNET可以作为一个过渡的网络,用于通向美国以 外的国际网络交通。该政策允许人们使用NSFNET基础结构而不需交 纳关税。这方便了人们使用现有的网络,并且导致了1987年以后 Internet的迅速发展。
由于这些(以及其它一些)政策决定,NSFNET在Internet中起了( 并在不久的将来继续起着)重要的作用。NSFNET经常被人们称为是 网络的支柱(网络中的最大回路),它还在全球水平的网络交通中 充当了关键的中心通道。由于本文的篇幅有限,我们不打算在此详 细介绍ARPANet、DARPA Internet和NSFNET的历史。
网络连接性的范围
尽管从地理角度来看,现有网络的主要部分在美国本国的国防部 门以及研究机构和高等院校,但是从全世界范围来看,也有众多的 机构连接了Internet,而且还有更多的网络通过网关计算机与 Internet相连。在北美,美国、加拿大和墨西哥共享了一个物理网 络,它采用了从商业电话服务机构租用的电话线。在世界的其它地 方,有众多的研究机构和高等院校连接了Internet。西欧的大多数 大学的连接性水平与北美同类大学相当;东欧国家和前苏联或者已 有网络的连接,或者正在开发之中。
非洲、澳大利亚、亚洲、南太平洋地区和南美洲都有与Internet相 连的机构。事实上,网络已经遍及每一个大陆,甚至还包括南极洲 在内!威斯康星大学(University of Wisconsin)的计算机科学 教授拉里·兰德韦伯(Larry Landweber)为Internet学会( Internet Society)工作,负责监测通过计算机网络互相连接的国家的数目。他 定期将数据进行整理,然后通过Internet以“国际连接性” (International Connectivity)这一文本文件向各处传播。在他的文件所罗 列的200多个国家中,有137个国家有某种形式的国际网络连接性, 可以提供互用的电子邮件交换。
美国Internet的配置
最初,国家科学基金会设想了一种其结构中有三层的网络:
然而,在过去七年内发展成的网络的复杂性事实上已远远超出了这一 设想的简单结构。除了NSF所设想的网络以外,构成全球性Internet重 要部分的还有若干其它类型的网络,它们有时候取代了原先的网络。 这些网络包括:
实现连接
有人会问:“我如何才能连接Internet呢?”这个问题很难回答。 在美国,对于个人和组织而言,人们有许多选择,可以达到自己感 到方便的网络连接水平。在世界上许多别的国家里,这一情况也十 分类似。也许,与Internet连接的最好办法是去请教你周 围已与Internet连接的人或组织,了解一下他们是如何做的。诸如 Internet学会和网络信息联盟(Coalition for Networked Information)等若干组织可以向那些试图联网的人提供咨询服务。 因为现有的网络中有很大一部分为学校和研究机构服务,你也可以 到大专院校去看一下。
既然连接Internet的方式很多,我们也可以采用很多种连接的形式。 在很大的程度上,网络连接的形式决定了人们从事网络活动的类型 和方法。使用的计算机操作系统和网络回路的频带宽度对网络连接 的性能具有很大的影响。
在本文的其余部分中,我们将讨论在包交换的TCP/IP Internet中工作的网 络用户可得到的工具和资源。我们有必要指出,与兰德韦伯的文件 中所罗列的许多过关网络相“连接”的计算机未必能获得这里所指 出的某些服务。几乎在所有情况下,网关连接都可以提供电子邮件 的传递和接收功能;然而,网关可能并不支持其它服务。
通过Internet导航
对于那些尚未与Internet相连的人而言,这一定看来很神秘。然而, 对于那些以使用Internet若干年的人而言,就会有一种如鱼得水的 感觉。网络的发展之快是十分明显的,其原因之一是Internet为通 讯以及为数据储存和检索所提供了惊人的便利。网络传递随意和学 术通讯的潜力以及提供数据存储和检索的机制对于图书馆而言是一 种不祥的征兆。在印刷品的市场(一些强硬的网络工作者有时称其 为模拟品的市场[2])中,图书馆是一种工具,它可以用于储存和检索 数据,用于向寻求知识的个人传递思想和信息。在新兴的数字产品市场 中,计算机和网络则成为数据储存和检索的工具。同样,计算机和 网络还成为信息、思想和知识交流的工具。
网络信息检索系统的一个关键的特点是将客户/服伺计算机技术应用 于分布式环境中。在客户/服伺计算机模型(见图1)中,整个信息 检索系统的不同部分被分散于两个或多个计算机中,它们在一个网 络中被连接了起来。一台客户计算机包含了一系列程序,它们代表 了用户的界面,并控制着数据的输入和输出。在信息检索系统中, 客户提出的搜索请求基于用户的输入,该请求被送至另一台被称为 服伺器的计算机。服伺器包含了数据库和用于检索数据库中数据的 检索器。通过被称为协议的共享规则、规定和命令,服伺器和 客户可以互相进行通讯。
(a)___________(b)__________(c)___________(d)
图1:计算机(a)上的客户软件从计算机用户那里接受输入,形成 搜索请求,并将请求通过网络(b)送至运行服伺器软件的计算机(c)。 服伺器处理请求,并将适当的答复(d)送回客户(a)。
“大三”
TCP/IP协议组中的三个重要的应用层协议被称为“大三”(Big Three)。这些协议以及围绕其实现的应用为:文件传送协议( FTP - file transfer protocol)、简单邮件传送协议(SMTP - simple mail transmission protocol)和telnet。从总体上来看, 这三个协议构成了Internet中网络交通的绝大部分。Merit网络公 司已经在收集1989-1990年度以来网络上使用的服务的类型方面的 数据,并通过网络加以出版(参见图2和图3)。
NSFNET字节计数
图2:端口通过的字节百分比
NSFNET包计数
图3:端口通过的包百分比
文件传送协议(FTP)用于在Internet中不同的主机之间移动文件。 事实上,人们可以用FTP来传送任何形式的计算机可读文件,它们 包括文本数据、图形、编译了的程序、源代码或目标代码。新 老网络工作者们都最感兴趣的FTP服伺器实现的特点是“均一 FTP”。应用了均一FTP以后,系统管理器就可以安全地使其计算机 磁盘储存器的部分被任何网上的用户得到,他们不必用帐号或 口令就可以使用该磁盘空间。对于诸如Internet这样的大范围网络, 由于管理公众的用户身份和口令几乎不可能,所以这一点显得特别 有用。
“大三”应用之二就是简单邮件传送协议(SMTP)。Internet中的 系统用SMTP来管理主机和Internet之间的电子邮件交换。交换文本 的另一个方法就是Usenet网络新闻(Usenet Network News) 系统。网络新闻并不用SMTP来进行邮件传送,而是采用了所谓的网络 新闻传送协议(NNTP - network news transfer protocol)。在上 面的图例中,SMTP和NNTP一起表示了“网络邮件”。
第三个应用是telnet。由于采用了telnet,网络上的计算机 可以成为与网络中其它地方的另一台远程计算机相连的一个终端。 这一行为被称为“虚终端模拟”(virtual terminal emulation)。 Telnet允许用户进入Internet中计算机上的一个帐号,其方法是模 拟一个DEC vt100终端(相应地,telnet的tn3270版本允许计算机 模拟IBM 3270终端,这是连接IBM主机所必需的)。Telnet经常被 用于提供数据库的公共存取,例如图书馆的联机目录、公共文献集、 或电子邮件清单的档案。现已使用个人计算机远程通讯软件(诸如 ProComm)来连接计算机通报板或BRS和Dialog等服务的计算机用户 已经使用了与telnet类似的终端模拟软件。ProComm这样的软件包 和telnet之间的主要区别在于:telnet的目的是用于专用数字网络 回路,而不是使用串行调制解调器。
深层次的应用
尽管“大三”应用仍然占了网络应用中的大部分(不管是用包计数 还是用字节计量),IP Internet中正在采用越来越复杂的信息检 索工具。下面,我们来考察一些最重要的信息检索系统。
对于Internet的运行而言,域名系统(DNS - domain name system) 极其重要,但是它常常被用户所忽视。DNS系统将主机名地址(例 如@a.cni.org)翻译成Internet协议地址(例如192.100.21.1), 其重要性有如下几个方面:
DNS最普通的实现是伯克利Internet名域(BIND - Berkeley Internet Name Domain)。此外,还有各种各样的工具和应用程 序可以与DNS接口,为系统管理者提供系统诊断和故障排除信息。
第二个要考察的系统是archie。Archie的开发者是麦吉尔大学( McGill University)的彼得·多伊奇(Peter Deutsch)和艾伦· 艾姆塔格(Alan Emtage),它是一种分布式信息检索系统,可以 汇集和表示关于Internet中各处几百个均一FTP档案的数据。一旦 系统管理者用archie服伺器注册了其均一FTP地点,archie系统会 定期地查询这一地点,并且将对应于这一地点的内容的记录作为 archie中央数据库的一部分加以维护。这样,用户就可以用archie 客户来与archie服伺器交流,并且能够在一次搜索中检索出所有注 册均一FTP地点的的内容,以达到检索出一份软件或一份文件之所 在地的目的。遗憾的是,archie搜索只限于文件名(以及目录名和 路径名)。因为archie服伺器只能记录它所遇到的目录名和文件名, 而不是文件本身的内容,它最适用于确定已知条目的所在地。
还有一个使用广泛的信息检索系统是Internet Gopher,它由明尼 苏达大学(University of Minnesota)开发。Gopher系统为用户 提供了一系列分级排列的菜单,菜单上的每一个项目指向一个资源 或Internet中某处一个资源的所在地。用户可以在这一分级菜单上 任何一点进入这一信息环境——它经常被称为Gopherspace。在 Gopher菜单上的每一次进入事实上是为用户执行一个或多个命令, 以使用户阅读文件,连接远程数据库或跳跃至另一个Gopher服伺器。 因为界面简单,而且工作由系统在后台完成,它是一种对新用户而 言极易掌握的信息检索系统。
Veronica与Gopher的关系就象archie与FTP的关系一样。换言之, Veronica使用户能够在菜单的文本上搜索Gopherspace中的项目。 这使得Gopher作为信息检索系统之应用更为广泛。随着信息量的不 断扩张,数据的分级排列变得越来越不精确,越来越难以导航。通 过提供一种在该分级信息空间中搜索的机制,Veronica抵消了分级 体系中精确性不足的问题。
WorldWideWeb(WWW)的开发者是位于瑞士日内瓦的欧洲粒子物理 实验室(CERN - European Laboratory for Particle Physics) 的蒂姆·伯纳斯-李(Tim Berners-Lee),它是一种大范围的超 级媒介信息检索系统,包括蕴含着与其它文件之连接的带标识的 文件以及用于阅读这些文件和连接的软件。CERN的WWW项目的方针 是要让更多的学术信息传遍所有人,其目的在于向人们提供大量 以文本为基础的文件的公共存取。与Gopher类似,WWW也有一个便 于新用户掌握的界面,但是有些人认为超文本系统很难用于精确的 信息检索。
大范围信息服伺器(WAIS - Wide Area Information Server)是 由WAIS公司(WAIS, Inc.)的布鲁斯特·卡勒(Brewster Kahle) 开发的,它用NISO Z39.50信息检索协议来提供一个客户/服伺器 数据库系统。典型的服伺器是在UNIX机器上运行的,它可以用各种 各样的客户来进行搜索。NISO Z39.50信息检索协议同样被越来越 多地用于各种图书馆系统的联机目录中。然而我们应当注意到, WAIS和图书馆目录应用了不同版本的Z39.50协议。在作者写作本文 的时候,公共域WAIS版本基于Z39.50标准的第一版(Z39.50-1988) ,而诸如NOTIS和数据研究公司(Data Research Associates)等 商业图书馆厂商却用了更新的第二版标准(Z39.50-1992)。目前, 人们正计划采用更新的标准来使WAIS系统适应人们需要。在欧共体内,信息检 索系统都是用该协议的OSI版本来建立的,它就是“搜索和检索” (SR - Search and Retrieval)。
最后,我们所要介绍的是Mosaic。它是一种全球性的超级媒体浏览 器,由位于伊利诺斯州尚佩恩的国家巨型计算应用中心( National Center for Supercomputing Applications)开发。目 前的Mosaic应用在X-Window系统下运行;但是不久以后,为在带 DOS版本的Window的个人计算机中和在Macintosh计算机中运行而设计的 客户即将问世。Mosaic最有突出的方面是,它可以在单一的界面上 向一个客户提供上述许多种其它类型的服务。
网络信息的识别、定位和使用
以上所有的工具的主要特点是,它们在用户已知搜索目标(一个服 伺器、服伺器上的一个文件或服伺器上的一个数据库)存在时运行 相当可靠。这些系统所共有的一个弱点就是,它们都不适于决定问 询的起点。所以,在用户的信息问询是专题性的(例如是按主题的) 时候,它们并不十分有效。
目前,解决这一问题的办法是开发目录服务。人们普遍认为,需要进 行专题查询的用户必须有一种目录服务,或一系列的目录服务,用 于作为搜索的有意义的起点。这些目录可以被查询,并能向用户指 出已知目标的一个有限的集合。然后,用户可以查询其中的每一个 目标,并从这些系统中每一者获取所需信息。为了满足这方面的需 要,人们正在从事若干目录项目的开发工作,其中包括NSFNET Internet网络信息中心(InterNIC - Internet Network Information Center)的目录和数据库服务(Directory and Database Services) 组以及网络化信息(Networked Information)的TopNode项目。
对大量数据的有意义的目录服务的开发要求有一定程度上对数据的 质量控制。DNS系统工作良好的一个原因在于其数据相当简单,其 表示是两分法的——或是或非。然而,图书馆采集的数据的类型趋 向于更为复杂,而且典型的图书馆信息问询经常比较粗糙。如果系 统中没有某种质量控制(以叙词、规范标目等为形式),有效的数 据检索就可能不会成功(从专题或面向主题的问询的观点出发)。
目录中的资源被定位以后,对每一个资源的有效利用仍然是一个问 题。一个用户要掌握成千上万个不同的系统来有效地检索出所需要 的信息,这是一件令人难以想象的事情。同样,仅仅一个客户界面也 不能完全解决检索的问题。在我们面前有两个问题:一个是客户和服伺器中间究竟发 生了什么,另一个是数据在检索出以后如何在界面中向用户表 达出来;前者比后者更重要一些。多种多样的客户之性能的不同会使用 户支持更为复杂。此外,客户-服伺器技术的使用使得数据库服务 提供者必须向远离数据库的用户推销自己的服务。那么,人们如何 来支持远处的用户呢?
在确定特定的网络资源以后,我们需要了解另一种质量控制的形式。 在网络化的环境中,我们经常会因为突然看到巨大的信息量而不知 所措。用户如果想找到关于某个专题的一个文献随意阅读,但却从 信息检索系统中找到几千个随机排列的记录,他不会因此而感到高 兴。Internet网络化信息环境目前缺少的一个很重要的部分,就是 将用户驱动的过滤和概况的信息结合到网络客户中去。
在网络中,越来越多的信息通过计算机之间的交互作用而被生成和 汇集。同样,同行之间的计算机交流也可能对传统的图书馆职业产 生影响。今后,遥感设备、卫星和其它计算机系统将会在网络中产 生出无止境的信息。未来的网络用户也许能够象我们现在使用调幅 -调频收音机一样地将自己的计算机调在某一个特定的频率上,收 集关于南极的天气信息、股市行情和美元汇率的数据。
显然,人们在利用上述信息系统时已经吸取了不少教训。对这些问 题感兴趣的人们正在想办法解决所遇到的问题,并构造用于 Internet和其它今后可能出现的大范围分布式计算机环境的框架。 例如,Internet工程作业组(IETF - Internet Engineering Task Force)已经着手开始了一个项目,提出这些系统开发者的 一些问题、需要和设想。在IETF的用户服务范围(User Services Area)中,一个包括若干新的IETF工作小组的操作项目已经产生, 以提出开发高度可靠的服务的问题,使之能对网络化信息资源作精 确的识别和定位。
Internet有何与众不同之处?
人们一定会问:“Internet有何与众不同之处?”这个问题 的答案可以在如下几个方面中找到:
Internet为大家敞开大门,面对一些全新的方法,以处理数据储存 和检索、信息采集以及通讯的问题。Internet成功的很大一部分原 因在于,它提供了一种“开放的计算机环境”,使得其中的人们能 以各自的方式交互式地使用工具和资源,从而满足自己的信息和通 讯需要。这样,网络工作人员想要什么就能得到什么,几乎没有什 么障碍。在网络的美国部分从合作的和政府补贴的形式转变成商业 市场的时候,我们应当牢牢记住这一点。
此外,使用一套标准的联网协议作为一种共同的网络载体,这一点 也使之与其前身大不相同。这一共同的载体使得人们有机会进行通 用的存取,对网络服务提供者以及硬件和软件平台作几乎没有限制 的选择。
最近,人们正在哥伦比亚特区的华盛顿忙于各种活动,以最终确定 Internet的美国部分的发展方向。由于华盛顿当局日益严重的预算 问题,国家科学基金会不大可能继续象过去那样继续资助网络连接 和网络扩张。事实上,国家科学基金会已经初步提出了一个方案, 在四年内逐步停止对中层地区网络的资助。此外,美国国会已提出 了若干个议案(例如HR1757、“Boucher”议案和S.4),它们将对 Internet的未来发展产生影响。
事实上,在Internet的资源和服务的不断发展中,没有人能肯定失 利,但肯定有人能大量获利。如果有人能思考一下Internet的现状, 它一定就能想象到多年以后的Internet。七年以前,我认为现在的网 络基础结构的水平不大可能适合。我当时还认为,要达到这样的层 次,有许多政治、经济和商业利益方面的问题有待解决。七年以后 的今天,我希望能有新的进展再次使我惊奇!
作者:克雷格·A·萨默希尔(网络信息联盟系统协调员和项目官员)
[2] 与通过电子技术形成的数字产品的市场相对应而言。 -译者注
《国际图书馆协会联合会第58、59届大会论文选译》,书目文献出版社,1996年,第235-242页