10000+成功案例
二十一年专业历程,超过10000次服务经验肤
——大庆市网络安全协会——
守护您的网络安全
责任●效率●质量●荣誉
商标注册
全方位保护您的知识产权
商标查询●商标注册●商标续展●商标转让●商标变更●商标注销●商标交易●国际商标●版权●专利权●著作权
您当前所在位置:首页 > 网站建设 > 正文

如何引导搜索引擎蜘蛛

更新时间:2008-08-29点击次数:18950次
大家都知道搜索引擎都有自己的“搜索机器人”(ROBOTS)即网络蜘蛛,并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 

     通过运行一个软件,该软件不断在网络上通过域名扫描和各种链接,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,以备查询。 这样的站点(获得信息==>整理建立数据库==>提供查询)我们就称之为“搜索引擎”。而所使用的软件一般叫做“Spider”、 “Robot”、“crawlers”等,中文名称“搜索机器人”。 

     平时我们在检查站点访问统计时,在“浏览器简报”中看到的Baiduspider、Googlebot、MSNBOT就是搜索机器人留下的记录,分别代表百度、GOOGLE和MSN搜索机器人。 

     网络蜘蛛即Web Spider。把互联网比喻成一个蜘蛛网,那么Spider就是在网络上爬来爬去的蜘蛛。网络蜘蛛是通过每个页面的链接地址来寻找新的网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它页面链接地址,然后通过这些链接地址继续寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个大网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。想让你的站被收录,前提是你的站有和其他站有一定的关联. 

     对搜索引擎来说,要想抓取互联网上所有的网页是根本不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网络网页数量的百分之四十左右。这其中的原因一方面是网络蜘蛛抓取技术的瓶颈,无法遍历网络所有的网页,有许多网页蜘蛛无法从别的网页的链接中找到;另一个原因是存储技术和处理技术,如果按照每个页面的平均大小为20K计算(包含蜘蛛抓来的图片),100亿网页的容量是100×2000G 字节,即使能够存储下来,下载也存在很大问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 

     如何提高蜘蛛的可读性!提高其对你网站的评价!在做网站优化的时候,我们一定要做好下列几点! 

    1) 不要做一个Flash站 

    2) 尽量不使用frameset 

    3) 网页不要过大,最好小于110KB! 

    4) 搜索引擎语系不要描述错误!(本来是中文站,却错误的告诉搜索引擎是英文站) 

    5) 项目命名一定要考虑到关键词策略; 

    6) 导航可读性一定要好,尽量不要使用flash或js做导航; 

    7) 结构要清晰明了; 

    8) 使用ajax要适度; 

    9) 千万不可强制性登录; 

    10) 避免作弊或让搜索引擎误会; 

    11) 最好使用畅通的扁平化的架构 

    12) 预留纯文字导航列,确保索引完整性; 

    13) 关键词策略放入导览列,命名与网站内部连结当中; 

    14) 每个页面不要重复使用title tag 

    15) 规划内容主题化区域; 

    16) 网站适当静态化,静态的网站更加容易被解读; 

    17) 路径命名带入关键词; 

    18) 留下<H>卷标区域; 

    19) 内容撰写要考虑关键词; 

    20) 稳定的主机或虚拟主机;