有迹象显示,以Google为代表的第二代搜索正在面临更为智能的第三代搜索的挑战。虽然关于第三代搜索目前还没有一个精确定义,但业内人士普遍相信,第三代搜索将在搜索的准确性和精确定位用户搜索意图方面有较大突破,并且变得更为智能化、个性化。
此外,第三代搜索还将通过对搜索结果进行自动分类、聚类、关联等个性化操作,而提供更为精确的搜索结果。目前,包括Google、IBM、Autonomy在内的搜索巨擘已经在第三代搜索的研发领域投入重兵。
第二代搜索有软肋
易观国际认为,查准率较低一直是关键词搜索的一大通病,通过建立开放的精细分类体系,通过自动分类、自动聚类等搜索技术的运用,下一代搜索将可以更好理解使用者的意图,从而提供更智能化的操作和更个性化的服务。
此前,搜索业界一直在致力于尝试不同的方法以使计算机能够处理爆炸式产生的信息:例如关键字搜索引擎、标签解决方案、交叉过滤和语言方法,但上述方法均非尽善尽美。例如,关键词搜索在解决多语种搜索的问题上,就面临不少技术难题。
搜索专家告诉记者,Google所代表的第二代搜索至少有如下局限性:
其一是提供的提问函数相当有限;
其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索。
其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;
其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。
第三代搜索浮出水面
据业内人士介绍,在核心搜索技术上,第三代搜索大致包含人工智能、模式识别、语义分析、神经网络等发展方向。由于神经网络搜索和人工智能搜索耗资巨大,目前还没有出现成型的搜索引擎,而以Autonomy公司为代表的模式识别搜索技术则早在上世纪90年代末就进入商用。
据了解,Autonomy的搜索技术基于一种被称为模式匹配的概念抽取技术,其中包括上百种专利技术。这些技术并不局限于传统的关键字检索,而是可以自动分析、识别任意信息中的主要概念,并且对这些概念进行排序。
因为是基于对概念的理解来提供搜索结果,所以,Autonomy的算法可以让计算机理解一个文档与查询主题相关度的百分比。这样,Autonomy就可以抽取信息的数字精华,并且根据用户的需求对其进行加密,然后实现对该文本的自动化操作。也因此,Autonomy能够不受语言限制,独立于语言分类及词典之外,而把文字当作语意的抽象符号来处理,通过它们出现的语境推断出对它的理解,而不是根据严格的语言语法设定来理解文字含义。
统计显示,Autonomy软件支持超过80种语言,其中包括阿拉伯语、希伯来语、俄语、希腊语、韩语、泰语、英语、德语、法语、意大利语、汉语(繁体简体)、以及日语。Autonomy的技术在理解俚语、行业术语或者拼写差异方面也没有任何困难,并且,它还能自动检测输入文档的语言并改变相应配置以自动处理每一种语言,并自动适应自然语言的变化。
“我们的技术是一种基于内容检索的技术,与以往的关键字检索完全不同,是一种内容的检索。它可以对信息中最主要的概念、信息进行自动的上下文环境总结和匹配。”Autonomy公司CEO迈克?林奇如此表示。
“Autonomy并不做搜索引擎的终端,只提供搜索引擎的核心技术。”麦克?林奇说,“这样,我们就有足够的力量与强大的竞争对手对抗。”