当文本信息库的容量很大时,如果要快速有效的获取文本,那么就需要使用特定的索引技术,一种简单而且常用的文本索引结构是倒排文件。如果搜索过程是以简单的单词匹配实施的,那么基于倒排文件的索引结构就能满足这回总需求。这种基于单词匹配的查询方式在目前的信息获取系统中用得比较普遍。
  
    一个典型的倒排文件由如下几部分组成:

(1)一个包含信息库中的文本中所有不同单词(也叫作词汇表)的向量;

(2)对于词汇表中的每个单词,有一种包含这个单词的所有文档(用文档号来标识)组成的列表。每个列表中的文档根据文档号的大小升序排列。查询执行的时间与访问索引所需要的时间密切相关。