互联网搜索技术发展现状
科讯网信息中心 陈振新录入
2008年08月12日 |
随着互联网的爆炸性增长,为了准确、快速地查找信息,互联网搜索技术应运而生并得到不断发展,这种搜索引擎技术将整个网络资源进行了整合。
1994年前后,出现以YAHOO等为代表的目录式搜索引擎,采用网站登录/收录方式,主要依靠人工分拣信息,内容更新不及时,检索速度慢。
随着互联网的迅速发展,互联网上的数据量急剧增长使得人工分拣大量新出现的网页变得越来越困难。根据互联网的特征网页之间互相链接和指向的特点,采用网络机器人自动从一个网站的链接进行跟踪进行全互联网信息的搜索。这种以超链接分析为基础,多个进程协同工作进行信息的抓取和检索,不但大大提高了数据采集的速度和规模使得用户数量也快速增长。
搜索引擎技术在不断发展用户对搜索引擎的需求也在不断细化各种各样的专门搜索引擎不断推出如新闻搜索引擎、图片搜索引擎、视频搜索引擎地图搜索引擎等,互联网搜索引擎厂商已达数百家。但各种搜索引擎都具有相似的系统架构主要包括数据搜索和采集、数据处理和数据表现如图飞所示。使用高速并行的网络蜘蛛程序漫游遍历互联网网页按照制定的策略尽可能全、尽可能快地搜索和采集信息从采集回的信息中抽取索引项。用户根据需要输入查询后检索器在索引库中进行高速有效查找文档r并按照特定的排序算法显示查找结果。
自2004年之后,我国互联网视听节目业务进入到一个快速增长阶段。除传统的门户网站外,包括视频分享、播客、宽带视频网站等一大批专业视听节目网站层出不穷。面对如此增长速度快、数据量大的互联网视听节目业务,需要引入搜索引擎技术,建立互联网视听节目监管系统,实现自动全面的互联网视听节目业务监管。