Monday, June 11, 2007
发现搜索的价值:走出语义搜索误区
天极网 作者:红雨 2006-09-25
可以说,就技术门槛而言,智能搜索代表了下一代搜索的主流趋势。但鉴于基于神经网络、人工智能的搜索耗资巨大,目前还处在试验阶段,尚无一家成型的搜索引擎上线;至于全球搜索界穷20年之力埋首研发的自然语言分析或者语义分析,由于语言本身的复杂性,其结果及性能迄今还不能解决现实世界的问题,也因此,迄今还没有一家完全基于语义分析的搜索引擎获得商业成功。
语义搜索的局限
完全采用语法和词汇原则来理解文字信息的语义搜索的一大局限,是不能处理例如双关语、多义词等模糊信息。这是因为计算机本身缺乏理解能力,尤其是缺乏理解不确定性信息或模糊信息的能力,所以当计算机尝试通过解析整段话来提取含义时,就会颇为棘手。一些高级的系统能够建立一套使机器解决不确定性所遵循的原则。但是,其指令集极为烦杂而且难以维护,基本没有可操作性。
与基于关键字的搜索方法一样,语义搜索方法也不能确定思想的相对重要性。换句话说,计算机会给一句话中的不同词汇分配相同的重要性值,而这与自然语言的实际内涵可能大相径庭。
固然,在最好的情况下,语义搜索方法可以处理少数简单的句子,但在采用包含大量概念的大型文件时,要从整段话、整篇文章中提取含义,其语言模式就只能望洋兴叹了。由于语义分析是基于真/假决策树和规则结构进行推理的,一个不正确的决策或者一个未知的查询的出现,会导致整个分析全盘皆错。
此外,语义分析都是基于特定语言及其语法结构的,这意味着它在俚语或语法方面非常容易出错。而且一旦有新单词或者变更出现,则必须对系统进行调整,从而保证系统能够理解这些新单词或变更,对系统进行拓展是一项复杂的工程。通常,语义搜索引擎只能支持有限的一些语言,如果要增加一种新的比较难的语言,则会产生很多问题。此前国内的问一问、21ilink、悠游等基于自然语言处理的搜索引擎之所以昙花一现,然后即迅速地被甚嚣尘上的第二代关键词搜索所淹没,与此有关。
另一种方法
与完全基于语法结构分析的语义搜索不同,以Autonomy为代表的核心概念匹配技术并不单纯依赖于一种语言的语法结构,而是把文字当作语意的抽象符号或者另一种“类型”的信息,采用可预测的统计词方式表示概念和功能,并通过有意义的概念词出现的上下文环境(而不是通过严格的语法定义)来形成对该概念词的理解,以此确定文档中每个主题的相关性及重要性。由于其系统由所输入的实际数据驱动,而不是由与内容无关的辅助规则所驱动,所以, Autonomy的系统可以支持基于俚语、行业术语、自然语言的检索。
因为同样的原因,Autonomy还能够不受语言语种限制(支持超过80种语言),支持任意信息片断的检索,只要该语言的信息足够多,就可以让系统形成对该语言的理解。例如将一句话、一段或者整页文本作为输入的搜索条件,由此可返回与搜索条件概念相关的结果,这些结果可按照概念相关性或文档上下文关联排序。Autonomy 的技术甚至能自动检测输入文档的语言并改变相应配置以自动处理每一种语言。
Autonomy的技术内核,是一个被称为IDOL的智能信息处理层。IDOL由动态推理引擎 (DRE)、分类服务器、用户服务器等模块组成,DRE 可实现概念识别、自动摘要、有效识别、自动超链接、自然语言检索等核心操作,分类服务器可实现自动聚类、自动分类、自动目录生成等功能操作,用户服务器则可以实现个人化信息创建、个性化信息提示、个性化信息训练、专家定位等个性化操作。
可以说, IDOL提供了一个对语言模式进行文字分析、进而推断出有序概念的智能内核。正是以此为基础,Autonomy才能够发展出一整套基于“模式匹配”的功能应用,比如二维岛图、二维趋势图、三维立体图等图形化结果,比如自动建档、社区及协作、专家搜索、信息推送等行业应用,比如电子通讯和管理技术的安全监控、诉讼及风险管理自动化的Aungate,比如下一代呼叫中心技术Qfiniti(现在是Autonomy etalk部门的一部分),比如视频关键帧识别技术和语音识别技术,如此等等。而这些Autonomy早在上世纪90年代末即已研发成熟并投入使用的搜索应用,正是眼下第三代搜索潮流中最被看好的主流应用。
这股范式转型潮流由多条支流组成,其中一个支流是包含本地化搜索、社区内容搜索、知识问答社区等在内的社会化搜索,另一个支流则是人工智能、模式识别、语义分析、神经网络等智能搜索。第三代搜索,作为对以Google为代表的第二代搜索范式的超越或者说革新,时下正逼近一个重要的时间拐点。这股范式转型潮流由多条支流组成,其中一个支流是包含本地化搜索、社区内容搜索、知识问答社区等在内的社会化搜索,另一个支流则是人工智能、模式识别、语义分析、神经网络等智能搜索。
可以说,就技术门槛而言,智能搜索代表了下一代搜索的主流趋势。但鉴于基于神经网络、人工智能的搜索耗资巨大,目前还处在试验阶段,尚无一家成型的搜索引擎上线;至于全球搜索界穷20年之力埋首研发的自然语言分析或者语义分析,由于语言本身的复杂性,其结果及性能迄今还不能解决现实世界的问题,也因此,迄今还没有一家完全基于语义分析的搜索引擎获得商业成功。
语义搜索的局限
完全采用语法和词汇原则来理解文字信息的语义搜索的一大局限,是不能处理例如双关语、多义词等模糊信息。这是因为计算机本身缺乏理解能力,尤其是缺乏理解不确定性信息或模糊信息的能力,所以当计算机尝试通过解析整段话来提取含义时,就会颇为棘手。一些高级的系统能够建立一套使机器解决不确定性所遵循的原则。但是,其指令集极为烦杂而且难以维护,基本没有可操作性。
与基于关键字的搜索方法一样,语义搜索方法也不能确定思想的相对重要性。换句话说,计算机会给一句话中的不同词汇分配相同的重要性值,而这与自然语言的实际内涵可能大相径庭。
固然,在最好的情况下,语义搜索方法可以处理少数简单的句子,但在采用包含大量概念的大型文件时,要从整段话、整篇文章中提取含义,其语言模式就只能望洋兴叹了。由于语义分析是基于真/假决策树和规则结构进行推理的,一个不正确的决策或者一个未知的查询的出现,会导致整个分析全盘皆错。
此外,语义分析都是基于特定语言及其语法结构的,这意味着它在俚语或语法方面非常容易出错。而且一旦有新单词或者变更出现,则必须对系统进行调整,从而保证系统能够理解这些新单词或变更,对系统进行拓展是一项复杂的工程。通常,语义搜索引擎只能支持有限的一些语言,如果要增加一种新的比较难的语言,则会产生很多问题。此前国内的问一问、21ilink、悠游等基于自然语言处理的搜索引擎之所以昙花一现,然后即迅速地被甚嚣尘上的第二代关键词搜索所淹没,与此有关。
另一种方法
与完全基于语法结构分析的语义搜索不同,以Autonomy为代表的核心概念匹配技术并不单纯依赖于一种语言的语法结构,而是把文字当作语意的抽象符号或者另一种“类型”的信息,采用可预测的统计词方式表示概念和功能,并通过有意义的概念词出现的上下文环境(而不是通过严格的语法定义)来形成对该概念词的理解,以此确定文档中每个主题的相关性及重要性。由于其系统由所输入的实际数据驱动,而不是由与内容无关的辅助规则所驱动,所以, Autonomy的系统可以支持基于俚语、行业术语、自然语言的检索。
因为同样的原因,Autonomy还能够不受语言语种限制(支持超过80种语言),支持任意信息片断的检索,只要该语言的信息足够多,就可以让系统形成对该语言的理解。例如将一句话、一段或者整页文本作为输入的搜索条件,由此可返回与搜索条件概念相关的结果,这些结果可按照概念相关性或文档上下文关联排序。Autonomy 的技术甚至能自动检测输入文档的语言并改变相应配置以自动处理每一种语言。
Autonomy的技术内核,是一个被称为IDOL的智能信息处理层。IDOL由动态推理引擎 (DRE)、分类服务器、用户服务器等模块组成,DRE 可实现概念识别、自动摘要、有效识别、自动超链接、自然语言检索等核心操作,分类服务器可实现自动聚类、自动分类、自动目录生成等功能操作,用户服务器则可以实现个人化信息创建、个性化信息提示、个性化信息训练、专家定位等个性化操作。
可以说, IDOL提供了一个对语言模式进行文字分析、进而推断出有序概念的智能内核。正是以此为基础,Autonomy才能够发展出一整套基于“模式匹配”的功能应用,比如二维岛图、二维趋势图、三维立体图等图形化结果,比如自动建档、社区及协作、专家搜索、信息推送等行业应用,比如电子通讯和管理技术的安全监控、诉讼及风险管理自动化的Aungate,比如下一代呼叫中心技术Qfiniti(现在是Autonomy etalk部门的一部分),比如视频关键帧识别技术和语音识别技术,如此等等。而这些Autonomy早在上世纪90年代末即已研发成熟并投入使用的搜索应用,正是眼下第三代搜索潮流中最被看好的主流应用。
Labels: search engine, semantic web