这是我做的第一课简单的介绍小我是小鹏90年出生做SEO已经三年了都是在积累一些经验和不停的学习,出这个教程只是为了促使自己更加努力的去学习不在颓废下去。
声明:我只做文字教程不出任何语音以及视频,不承接任何SEO项目。
我这次要讲的是基础课程先从索引开始:
索引的主要分为:结构、分析、组织、存储和检索的领域。
最初的索引基于文本:
所有的搜索引擎都是围绕以上的几个主题在研发以及扩展,从20世纪50年代开始,就把聚焦点放在文本上(text)和文本形式上的文档(text document)。
文本比较:
定义一个词、句子(新闻)、段落或者整个新闻报道的意义,比定义一个数据库内的名称要难的多,因此文本比较对于索引来说是非常重要的,也是最为困难的。如果换成我们来比较一篇文章是非常简单的,肉眼就是非常容易辨别文章的质量的好坏,而换成搜索引擎他们的理解能力却是相当差,所以说搜索引擎一直都在模拟人的行为来判断文章的核心也就 是在模拟人的行为来理解文章和建模,精确的实行这种比较,是信息检索的核心。
特别:
图片、视频、音频(音乐和语音)。这些媒体像文本一样,其内容都是通过它的描述来做比较的,但是对媒体内容的直接比较技术正在不断进步,例如图片,都可以对于颜色惊醒大致上的区分。
用户的查询方式:
这种查询的方式可以称之为特殊搜索(ad hoc search)因为用户查询的范围非常巨大而实现是没有任何预测性,所以就产生了,过滤、分类、问答。
过滤:也就是跟踪,根据一个人的行为去判断检索用户的爱好或者说是兴趣,根据他的兴趣发现符合其兴趣的报道活着检索结果。
分类:分类一般都是基于一套预先定义好的标签或者类别给文档打上标记。
问答:例如:“世界上人口最多的国家是那个?” 这个不多说,你搜索下就明白。
相关性:
相关性也是一个重要的问题英文称之为:relevance。相关性在搜索引擎中是非常重要的一个环节,尽管听上去非常简单,但是当一个人去判断一篇文章是否相关,有许多因素会影响到他的决策。中文检索非常复杂因为语言的表达方式非常多,通过不同的词语,表达同一个概念,所以才会出现:此表不匹配问题。
话题相关和用户相关这两个概念必须区分,只有区分才能合理的做到基本的优化,这也是两个完全不同的概念。如果一个文本与查询的话题相关那就意味着与查询的话题相关,就是说两者有相同的话题。例如,焦作暴雨天气相关的新闻报道就可以查询“焦作恶劣天气”是相关话题。如果用户搜索“焦作天气”这又是另外的一个概念,他想查询的并不是暴雨相关的新闻而是,用户相关的天气预报,很简单的例子我想大家能很快就明白吧?
相关性模型非常多我在这里只是简单的介绍了两种常用的也是比较重要的,还有一些所谓的优化工具就是依赖搜索引擎的,点击流数据来提升网站排名,这个非常常见但是一旦停止使用你的点击流数据,那网站就危险了,会牵连其他的排名。这都是网站的数据异常造成的。
今天这一篇我们就讲到这里其他的怎样判断搜索引擎的性能这里就不多说,因为对大家的帮助不大,一般都是从查询的吞吐量、用户的交互性,索引的速度,相应的时间都是有着密切关系,新闻这里注意了都会有一个,覆盖率和时新性上的判断等。
结束语:数据的集合才能看清楚数据的曲线,每个网站都有自己的数据曲线。
(版权所有:my.cneduit.com ,转载必须声明出处)
感谢 小鹏 的投稿