2.信息检索模块
信息检索的任务就是用前面提取出来的关键字到文档库中查找相关的文档。信息检索模块返回的是一些最相关的文档。在问答系统中的信息检索模块也可以直接调用已有检索系统,比如Smart 系统,或者也可调用Internet 上的搜索引擎比如Google 。在TREC 会议中就不要求每个问答系统都要有自己的信息检索模块,因为TREC 会议会为每个问题提供最相关的1000 个文档。这些相关的文档就是用Smart 检索出来的。信息检索模块的输入一般都是关键字的组合,如果是英文的问答系统,还需要对关键字进行词根操作(Stemming) 。
要建立一个信息检索模块,需要对文档库建立索引。这样才能快速地找到包含特定关键词的文档。在建立索引之前,有必要对语料进行预处理,比如去除重复的文档,如果是英文的语料需要进行词根操作(Stemming) ,如果是汉语语料则需要分词。如果是汉语的语料库,还需要进行分词处理。
|