随锐旗下互动传媒:

TRS网站内容检索系统((TRS WSS)

http://www.weaseek.com  2005-08-18 14:07:00  来源:

TRS站点检索系统就是为网站提供全方位的信息检索功能而设计,它是TRS全能内容检索系统的一个有机组成部分,利用它可以方便地实施一个或多个网站的站内搜索引擎功能。

系统概述:  

  TRS站点检索系统就是为网站提供全方位的信息检索功能而设计,它是TRS全能内容检索系统的一个有机组成部分,利用它可以方便地实施一个或多个网站的站内搜索引擎功能。TRS站点检索系统可以周期性地监控网站上的信息变化情况,对发生变化的信息自动建立索引,能够实现针对网页内容的全文检索以及针对网页各类属性的特征检索。维护人员可以方便地把检索控件嵌入到任何栏目或网页中。  

  特色功能:  

  智能检索

  TRS站点检索系统独创的智能检索技术,在查全和查准方面比一般搜索引擎系统高得多。TRS智能检索技术包括智能中文分词(采用了上万条歧义排除规则)、广义同义词检索、主题词典控制检索以及相似性检索。  

  相关度排序和时间排序

  检索结果的输出顺序是衡量站内检索质量的重要指标之一。TRS站点检索系统提供相关度排序和时间排序两种有效的排序输出方式,相关度排序以检索词与网页的相关性为依据对检索结果排序,相关性是对词频、词位(词在文章中出现的位置)、以及文件大小等因素综合评价的结果;时间排序则可以保证把最新的网页优先输出。这两种排序方式充分满足了用户对站点检索结果的浏览要求。在搜索引擎中被普遍采用的超链分析方法对站内检索结果的排序基本不起作用。  

  增量更新

  TRS站点检索系统采用增量更新方式对网站内容进行更新,即每次检查网站的变化时,只对新添加或发生变化的网页进行更新,索引性能明显优于只能进行完全更新的系统,并且把对网站本身的访问压力降至最小。  

  开放性

  TRS站点检索系统把网页的内容进行各种自动标引后,统一存储在数据库中(TRS内容检索服务器或SQL Server数据库),使这些信息成为可以再开发利用的资源。  

  主要特点:  

  智能全文检索-快、全、准

  采用TRS独创的按词和二元组混合索引方式,配备了专业排除歧义知识库,大大提高了中文全文检索的检索速度和检索效果。TRS独创的智能检索技术,在查全和查准方面比一般搜索引擎系统高得多。TRS智能检索技术包括智能中文分词、广义同义词检索、主题词典控制检索以及相似性检索等。  

  TRS支持结构化数据和非结构化数据的同时检索,比如可以对网页的时间、作者、标题、关键词以及全文各个属性进行复杂的组合检索,随着XML的普及和推广,这种检索需求会越来越多。TRS提供关键词、短语、组合检索、位置检索、逻辑检索表达式、二次检索等多种检索方式,满足不同用户对检索的不同要求。  

  TRS在内核上采用先进的多级索引技术、CACHE技术等,在单服务器上能够提供更高的性能,比如在500万篇新闻资料上(实际用户),检索速度为秒级。在我们实际测试的120万篇人民日报资料(从1947-2000年),平均检索速度为0.2秒。  

  动态索引更新-永不停顿的内容检索

  TRS网站检索系统中的信息采集和维护管理工具采用自动和人工两种方式,支持远程维护和管理,通过设置任务计划可以实现远程无人值守的维护更新托管方式。更新及时,可以达到分钟级自动监测,支持增量更新,确保检索网站最新的资料。  

  信息的采集和维护更新采用多线程并发搜索技术,可以根据网络带宽情况动态调节线程数目;对于大型的门户级网站,支持分布式采集,采集任务可以分派到多台机器上执行。  

  全面接管各种内容-网页、数据库、格式化文件等

  可以支持检索静态网页、动态网页、文件系统的目录文件等。通过集成TRS的其他相关技术和产品可以支持对关系数据库中内容的检索,支持对各种格式化文档的检索(如PDF, MS Office文件)。  

  和网站整体结构的无缝集成-开放接口,方便定制

  在系统结构方面支持三层结构,每层都支持服务器群级。支持Linux, NT, Solaris, HP-UX, AIX等各种主流UNIX操作系统,支持IIS,TOMCAT , BEA WebLogic, IBM Websphere等各种应用服务器,可以很容易的集成到网站已有的系统结构中。  

  TRS网站检索系统提供了模版级、组件级和应用编程接口级等多种检索的客户化手段,方便用户根据自己网站的检索要求来灵活进行定制。  

  TRS网站检索系统允许用户通过配置一些参数来自定义网站检索界面,无需作任何的编程。对于更复杂的检索界面要求,允许用户通过调用TRS ADO/COM组件或Javabeans组件来写ASP或JSP页面脚本,可以更好的与现有的网站结构进行结合。如果需要更高级的检索应用系统,可以通过TRS信息检索发布和服务系统实现对检索信息的安全访问控制和各种高级的信息服务功能,包括用户管理、频道管理、不同频道的模版管理、资料库、发布、个性化订阅、网站内容管理等。  

  一体化管理-维护简单,实施成本低

  TRS网站检索系统提供了从网站信息的采集、分类、索引建库到检索服务的一体化管理手段,并且只需安装一次既完成了所有相关模块、相关系统的自动化安装配置和运行,这种安装的自动化和使用的简单性,大大降低了系统的实施成本和维护成本。  

  性能指标:

  在G级数据集合上达到亚秒级检索速度数据索引更新时间平均小于0.02s/记录(每条记录4Kb)

  全文检索数据库的索引空间膨胀率<0.5 全文数据库可以容纳10亿条记录,对每条记录的大小没有限制

  运行平台:  

  网页采集机器人运行于Windows NT/Windows2000操作系统之上;

  TRS内容检索服务器和Web模块支持Windows NT/Windows2000、Linux以及各种主流Unix平台;

  推荐配置512M以上内存;

  硬盘大小根据网站的信息量配置。  

  其它相关软件:

  TRS内容服务器4.5以上版本Web服务器:IIS4.0以上版本、Apache服务器等Web应用服务器:支持标准的Web应用服务器,如IBM WebSphere,BEA WebLogic,Tomcat等。

[责任编辑:桑业]热门关键词: 检索

相关文章