什么是Sitemap(搜索引擎网站地图) - 觅搜博客|元搜索引擎研究-觅搜(metasoo.com)官方博客

引用Google上的一段话作说明:

用最简单的话来说,Sitemap 就是您网站上网页的列表。 创建并提交 Sitemap 有助于确保 Google 知道您网站上的所有网页,包括 Google 的正常抓取过程可能无法找到的网址。

觅搜(其实,就是我个人) 对它的定义很直接:

Sitemap就是一个/多个XML文件,以规定的格式提供给搜索引擎网址。

其实搜索引擎Sitemap 这可以让“网络爬虫”偷懒的东西就是Google的产物,现在它已经成了行业标准。(真的是一流企业卖标准,二流企业卖产品。)目前Sitemap的版本是0.9版,官方网站是:http://www.sitemaps.org/ (我这里很多时候是打不开的)。现在支持该标准的公司/网站有:GoogleYahooAskLiveIBM等等,国外的公司对于一项标准合作的态度比较明显,虽然这不是最伟大的发明。国内的搜索引擎目前好像都不支持的,这不是什么技术问题,主要是态度问题。目前的趋势看,我估计国内第一个支持Sitemap的搜索引擎是有道(呵呵,瞎猜的)。

其实百度也有类似的东西,叫做“互联网新闻开放协议”,只是xml格式不一样。不过其追随者好像寥寥无几,所以这项内容推出后也就没多少声音了。

Sitemap的作用:

以下引用Google的说明

如果网站属于下列情况,那么 Sitemap 会特别实用:

  • 网站含动态内容。
  • 网站有不容易被 Googlebot 在抓取过程中发现的页面,如有大量富 AJAX 或 Flash 内容的页面。
  • 网站为新网站且指向网站的链接不多。 (Googlebot 会跟随链接从一个网页到另一个网页抓取网络,因此,如果您的网站没有很好地链接,我们可能很难发现它。)
  • 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。

您还可以使用 Sitemap 向 Google 提供有关您网页的其他信息,包括:

  • 您网站上网页的更改频率。 例如:您可能每日都更新产品页,但每几个月才更新"我的简介"页一次。
  • 各网页上次修改的日期。
  • 您网站上各网页的相对重要性。 例如:主页的相对重要性为 1.0,类别页的相对重要性为 0.8,而个人博客条目或产品页的相对重要性则为 0.5。这个优先级只是说明特定网址相对于您网站上其他网址的重要性,并不会影响您的网页在搜索结果中的排名。

Sitemap格式:

具体格式请看说明:https://www.google.com/webmasters/tools/docs/zh_CN/protocol.html
如觅搜的简单sitemap: http://www.metasoo.com/MetaSoositemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.metasoo.com/</loc>
<lastmod>2008-08-08</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/duty.htm</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/privacy.htm</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/blog/</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

要注意的是,对于内容比较多的网站,每个xml文件里的url数是有限制的,提供的每个 Sitemaps 文件包括的网址不得超过 50,000 个,并且未压缩时不能大于 10MB (10,485,760)。超出限制的要生成多个Sitemap文件,为了方便提交你可以制作一个索引文件。
如:天天牛市网的Sitemap:http://www.365bull.com/365bullcnsitemap.xml

<?xml version="1.0" encoding="UTF-8" ?>
- <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
- <sitemap>
<loc>http://www.365bull.com/365bullcnsitemap1.xml</loc>
<lastmod>2008-08-15T07:45:22+08:00</lastmod>
</sitemap>
- <sitemap>
<loc>http://www.365bull.com/365bullcnsitemap2.xml</loc>
<lastmod>2008-08-15T07:45:22+08:00</lastmod>
</sitemap>
- <sitemap>
<loc>http://www.365bull.com/365bullcnsitemap3.xml</loc>
<lastmod>2008-08-15T07:45:22+08:00</lastmod>
</sitemap>
-
</sitemapindex>
另外一种简单的方法就是将rss当作Sitenap提交,比如 觅搜博客就是将rss作为Sitenap提交的,搜索引擎收录效果非常好。

制作Sitemap文件:

制作Sitemap文件一般有三种方法:1、手工编辑;2、利用工具;3、自己编写后台程序。

一般对于小网站可以利用手工编辑。使用工具的一般有两种方式:一、模仿网络爬虫从客户端遍历,其实这种意义不大;二、放置程序到网站服务器端,遍历文件创建Sitemap,这种也有不足就是你要不停过滤那些没用的文件不被放入Sitemap。

有条件的站长还是推荐自己编写程序生成Sitemap。

Sitemapt提交:

Sitemapt提交也有两种方法:
一、Ping对方的地址 (这个具体情况以后再写)
二、手工提交到各搜索引擎:
Google: https://www.google.com/webmasters/tools/
Yahoo: http://sitemap.cn.yahoo.com/
Live: http://webmaster.live.com/

有关Sitemap和它的搜索引擎推广实践,我会继续写下去,希望关注觅搜博客