一、首页的扁平化设计
首页一般是权重的最高页面,也是蜘蛛最先访问的页面。所以在首页链接对于页面的“重要性”有一定影响,但往往一个网站的页面成千上万,首页的链接数理论上维持100-150是合理的,所以将想要频道页、详细页在首页留下链接,实现逻辑上首页扁平化设计。同样适用频道页等聚合属性的页面。那么问题来了,面对数量巨大页面,如何保证都可以实现被爬行抓取?树形结构的辅助,就是为了解决,扁平化带来的不足,在导航栏、面包屑导航等设计页面层级思维,辅助蜘蛛对网站结构的理解。
1.采用二级域名的网站树形结构
总体上扁平化+树形结构才是合理的网站结构优化策略组合。
2.链接结构优化
两种蜘蛛抓取不到的页面:网站本身不希望被收录的页面;没有链接到达的页面,即孤岛页面。对于没有被首页推荐的页面,可以再内链上补充。合理的内链就是一个四通八达、井然有序的交通系统,蜘蛛就是来往的车辆。社会化、描文本、设置链接入口等。
3.Domain结构优化
主要是二级域名和二级目录的选择策略。没有绝对的好与不好,就镭拓小编来说目前公司网站正在有二级域名网站结构向二级目录转变,只是采取适应当前镭拓科技发展的核心:塑造公司品牌。所以根据自身特点选择合理的domain策略。
二、重要性的主导
对于搜索引擎来说,什么样页面会被认为“更重要”?有这么一句话:每个链接都是一个投票,意思是:页面的所有链接都是投票。在搜索引擎看来:获得更多内部投票的网页相对来说更加重要。
三、网页的标签:关键词
搜索引擎在分析页面的内容是优先从TDK入手,即title、description、keyword;之后就是H标签、alt标签;最后是TF-IDF ,即词频-文件频率。从三个的关联度定义页面的“标签”,即抓取的时页面的定义的关键词。