搜索引擎 search
当前位置:首页 > 网站营销 > 搜索引擎
学习搜索引擎的优化:五个顶级语义搜索引擎
发布日期:2010-08-10 阅读次数:872 字体大小:

语义搜索引擎到底是什么?为什么业界都对它大肆的吹捧,认为专业搜索的技术会在这个层面大放光彩?这篇文章带给你5大语义搜索引擎的介绍和藏在它背后的东西。

在搜索引擎的圈圈里,”语义“是一个带有魔幻光环的字眼。对它的大肆渲染会让你猜想说这可能是第二次搜索的高潮。这些宣传让我觉得有些许怀疑,我也一直在等待着这个技术变得成熟。这个时刻到了,我现在很高兴给大家介绍一下5个顶级的语义搜索引擎。

什么是语义搜索呢?

一个语义搜索引擎试图通过上下文来解读搜索结果的。它可以自动识别文本的概念结构。例如,如果你搜索“选举”,语义搜索引擎可能会获取包含“投票”,“竞选”和“选票”的文本信息,但是“选举”这个词可能根本没有出现在这些信息来源中。(编者注: 也就是说语义搜索可以对关键词的相关词和类似词进行解读,从而扩大搜索信息的准确性和相关性。)

在语义搜索的过程中,有一个重要组成部分,那就是针对查询的信息和网络上的内容,进行 消歧(消除模棱两可的情况)。这意味着,搜索引擎通过自然语言处理 - - 当你搜索“美洲虎“ (捷豹轿车), 寻找会知道你要找一辆车还是一个大型猫科动物 。(编者注:目前普遍的搜索引擎所做到的基本上是对于关键词的关注度,哪个关键词搜索的人多,基本上哪种结果会出现在前列。)

下面要给你介绍的这些搜索引擎都多少采用了语义分析来筛选和诠释数据。但是,你也将会看到,这几个搜索引擎采用了不同的方式并且展示了五种不同的产品。

什么时候使用语义搜索引擎呢?

语义搜索拥有一种能够提高传统网页搜索体验的能力,但是它却起不到替代性的作用。网络上大部分的搜索问题都是很随性的浏览,对结果的要求也不精益求精,所以语义搜索的用处不大,倒是有针对性的研究搜索,会得益于语义搜索的结果。

现在来看看我们这个5个最牛的语义搜索的名单,来看看他们将如果提高你的搜索体验。

HaKia

Hakia是一个通用语义搜索引擎,和下面要介绍的Powerset,Cognition不同,其搜索结果是像维基百科一样的语料库。

Hakia的搜索结果是通过Tabs(标签)来组织的:网页结果,可靠站点,图像和新闻,可靠站点涉及的结果是那些经过Hakia邀请的图书馆员和其他信息专家认证的。(编者注:美国的图书馆员都是非常有学问和学历的信息专家,每个学科分支都有专门的图书馆员,他们擅长信息分类检索,每年在华盛顿都有图书馆协会的会议,全国各地的图书员会聚集在一起探讨新的信息分类,科技检索。很多现今的技术和搜索模式都是他们最先开始倡导和开发的。)

相对于一些简单的搜索问题(比较典型的是那些流行的问题和缺少歧义的搜索问题),HaKia会给出一个类似于简历一样的东西。这是一个各种基于主题的相关信息汇总。每个“简历”都由一些信息的链接汇成索引,并且给出了快速引用,在页面上即时呈现。

这些“简历”的内容会根据搜索问题的特性变化(例如:个人档案,文献目录,大事件,可以是关于个人的,政府,经济,文化,也可以是关于国家的信息。) 这个“简历”对于我来说是我最喜欢Hakia的特色,特别是我搜索一些话题的时候。

Hakia通常会给你推荐一些相关的搜索,这对研究来说都是挺棒的支持。

举个例子,如果我搜索奥巴马,HaKia 会推荐我是否对他老婆,希拉里,民主党,共和党萨拉培林,约翰麦卡恩等等人也感兴趣。

但是有一些问题HaKia也会给出质量比较差的结果,不过HaKia还是在测试阶段,相信会有快速提高的。

SenseBot

SenseBot是一款将搜索结果提炼总结为一个精炼的文摘形式的搜索引擎。它试图去理解这些搜索结果的界面的意义。从这个出发点来看,它使用的是文本挖掘,试图分析网页并鉴定他们关键的语义概念。

Sensebot从这个方式帮助你迅速的掌握哪些相关的信息到底是什么。从这个角度来看你不需要自己去寻找大量的网页,甚至梳理出现的结果中不完整的专家的定义(甚至不需要理会任何定义。)

这个精炼的总结的作用是帮助消化你搜索的主题,将各种搜索结果的相关、重要内容汇聚在一起。它还提供给你由各种相关概念以及一个被认为是定义总结了你的搜索问题的语句的表单汇聚成的标签云。每个语句后面还包括了它们的出处的链接。

也不是所有的总结都是信息广泛或者容易理解的,但却是极有可能被改进的。Hakia,SenseBot都还在测试阶段。这些振奋人心的先进科技每天都在与时俱进。

Powerset

Powerset现在不是一个正规的网页互联网搜索引擎。它相对小型,语料库相对有限。

该技术提供了相对全面的信息资料。您可以在维基百科上进行测试,但是你会发现Powerset更擅长这方面的搜索,它对用于研究目的搜索而构建信息和表述的方式,是基于维基百科的巨大改善。

你可以在搜索栏输入关键词,短语,或者一个简单的问题。Powerset通常会直接在搜索结果的界面上直接回答问题。我最喜欢的一个特色就是Powerset把多个文章中的信息综合在一起。

”Factz“是往往会出现在搜索结果中一个盒子,它是一个囊括基于可用信息建议出来的参考资料。例如,当我搜索奥巴马,Powerset提供了一些奥巴马对罗伯特盖茨,中东,巴基斯坦,贸易的看法的信息的链接。点击搜索结果中一个链接,将显示出一个小的对话框,里面会有奥巴马的在提到文章中发言的引用,还有被引用话语的原文链接。

DeepDyve

DeepDyve (编者注: Deepdyve是目前比较有发展前途的一个语义搜索,编者在去年就注意到这家公司,还联系上了这家公司的几个程序员,发现有很多中国人在这里工作。)

DeepDyve是一个非常强大,专业的研究工具,提供给大众免费的服务。(编者注:Deepdyve的搜索服务是免费的,但是如果你要阅读搜索出来的学术期刊,还是要付费的。)

这是一个研究引擎帮助你进入专业内容的“深层网络”:那是互联网中没有被传统的搜索引擎索引或收录的信息(比如一些专业数据库,期刊等)。

学者,研究员,学生,技术专家,商业等Deepdyve的用户和其他信息消费者可以在以下分类中搜索维基百科和“深层网络“的信息: 生命科学,医学,物理科学,人文和社会科学,商业和金融,专利,法律,清洁能源科技,电子工程。

研究网站的搜索引擎往往依赖于布尔语言或硬编码的分类(编者注:逻辑运算计算机语言),这些语言是有门槛和一定的学习曲线,一般人从业者是很难使用它们的。 Deepdyve是目前拥有呈现这些有价值的信息来源的较简易界面的服务搜索引擎。

你的搜索问题可以是任何独立单词甚至25000的字的问题构成的。这个搜索的结果会以一种复杂的方式呈现,包括了许多高级的选项:提炼,分离,存储你的搜索。即使有复杂型的存在,这个搜索结果还是相对来说很容易浏览的。

Cognition

Cognition 的搜索业务是基于语义地图,在它成立的24年后,Cognition得以自称是如今可用的最全最精的英语搜索地图

你可以使用Cognition的技术来搜索下面四个载体内的信息。

1、Public.Resource.org(目前一共有675,704个联邦案例法文件,1,858卷,全部都是XHTML格式的文件。) 这次发布的信息由自1950年开始高等法院和上诉法院的决定组成。

2、MEDLINE(医疗文献分析及在线检索系统)摘要库:此数据库内的摘要来自于世界文献数据库内的生命科学和生物医药科学信息。它囊括了医药,护理,医药学,牙医学,兽医学,和健康关怀的信息,还有一些和医学没有直接联系的领域的信息,例如分子进化论。(目前有18,005,903个文件)。

3、 全部英文版本的维基百科内容

4、最全面的新英语翻译内容,包涵文本和诸如福音书theGospels of Matthew, Luke, John and Mark的译者笔记。

我们在维基百科内测试了Cognition.在这个拥有大量文本的资料库中,Cognition在对复杂问题的意思分类上表现的尤为出色。

1、词汇:比如区别“古老的礼拜堂 和古老的庙宇”

2、意思区分:“罢工的工人” 对比“加州的石油黄金”

3、分类 :例如“拉丁美洲的印第安部落” 或是“ 北美洲树木疾病”

这些Cognition使用的去解决搜索问题的技术是给人以深刻的印象,Cognition给使用者提供了一种友好的方式去更有价值地的控制意义和分类。

我认为我对Cognition搜索结果的表述还不是很完善,但是我殷切地希望Conition团队也可以借鉴一下Hakia或者Powerset的经验。

来源:译言网        原文地址:http://article.yeeyan.org/view/119269/119625?all=1