认识抓取 (Crawl) 与索引 ( Index )

抓取 (Crawl ) 与 索引 ( Index )是SEO领域里面非常非常基本的两个观念,在接触任何 SEO工作时你一定要理解。 同时 Google 也有提供官方的 HTML 语法给网站经营者,透过这些语法你可以优化搜索引擎蜘蛛如何抓取、索引你的网站。
下一篇文章我将会整理出所有的 SEO相关HTML语法,但前提是你必须要有抓取 (Crawl )以及索引 (Index) 的概念。
了解网络蜘蛛 ( Web Spider , Like Google Bot )

谷歌优化

网络蜘蛛这个说法比较抽象,Google官方将它称为Google Spider、Google Bot,你可以把整个世界网络想象为一个巨大蜘蛛网,而搜索引擎本身有属于它的软件,像是蜘蛛一样在这巨大的网络上爬行,并收集信息。
做 SEO工作,维持网络蜘蛛与网站之间良好的关系是非常重要的,你必须要了解各大搜索引擎蜘蛛的效能以及规范,并尽量让它能够完整抓取你网站上的优质内容。 在早些年前,Bing 的网络蜘蛛太大容量的网站内容会无法抓取,这就是Bing网络蜘蛛的效能限制,你必须要把最好的内容前放,因为档案太大的话,后面的内容Bing是抓不到的。
理解抓取 ( Crawl ) 、索引 ( Index )
搜索引擎运作原理我们可以简单说为
抓取 ( Crawl) – > 演算、建立索引到搜索引擎上 ( Index ) – > 供查询、使用
Crawl 在 Google Search Console里面被翻译为"检索",但我个人还是习惯将它翻译为抓取,抓取 ( Crawl )这个动作便是指搜索引擎抓取你网站上数据的行为,包含你的网站关键词、网站内容、社群讯号 ( Social Signal , 脸书分享、Google+分享 ) 、反向链接等。 而索引则是在Google 抓取完你的网站数据之后,它会将获得的信息透过演算、建档,并收录到搜索引擎中,这个建档、收录的动作称为索引 ( Index ),建立完索引后,User便可以于搜索引擎中找到你的网站(简单来说,先有抓取才会有索引)。
透过Google Search Console 我们可以用数据观察到Google抓取、索引我们网站的状况。 抓取与索引是完全不同的两件事。 有可能透过观察,你会看到 Google 确实很正常的抓取到了你页面上的信息,但 Google 却没有将你的页面索引到搜索引擎上,这样状况通常是你的网站有违规行为受到 Google逞处,又或是你的排名太差,在搜索引擎找不到自己的页面。
抓取 ( Crawl ) 与索引 ( Index )的优化工作
理解抓取与索引是甚么并不是重点,重点在于理解如何优化工作,你可以利用很多数字营销工具来观察网络蜘蛛与你的网站的互动状况,像是Screaming Frog 以及 Search Console 为做 SEO工作,优化抓取必备的工具。 下一篇文章我将会把所有 SEO HTML语法整理出来,到时会提到更多关于抓取以及索引的优化。
为何抓取 (Crawl ) 会需要优化 ?
我曾经碰过一个项目,该网站的入口页是使用 JQuery 动态式的瀑布流,在你进入网站时会看到四则文章链接,接着你鼠标向下卷动时,程序则会触发JQuery并出现后面四则 (有点像Facebook 现在的做法 ),这个状况底下网络蜘蛛只会抓取到一开始的四则文章而已! 因为网络蜘蛛不会去卷动并触发JQuery。 这个案例下,网络蜘蛛看到的信息很少,当然也很伤害你的 SEO!
抓取优化工作,最主要是你必须要确定,Google Bot 、Bing Bot 有确实完整抓到网站的数据,有可能你的一些网站结构以及HTML语法的错误,导致它看不到你的网站,这是非常致命的一件事。
当然也有一些特殊情况你不希望网络蜘蛛去抓取到你的网站,比方说你有页面未完成、还在测试中,你不希望User跟Google看到这个页面 ,那你必须要使用一些语法,防止网络蜘蛛抓到这个页面的数据。
为何索引 ( Index ) 需要优化 ?
测试索引 ( Index )的唯一办法就是实际使用搜索引擎去搜寻自己的网站
这里的索引优化我们先不谈排名,索引的优化工作除了排名以外,便是确保你的页面都有正常的建立进搜索引擎,并且某些页面会影响用户体验的,你不希望被建立进搜索引擎,你就要使用meta robots来进行SEO工作

您可能还喜欢...