领针厂家
免费服务热线

Free service

hotline

010-00000000
领针厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

自学SEO教程网站日志文件分析搜索蜘蛛爬行记录

发布时间:2020-06-28 11:36:10 阅读: 来源:领针厂家

1、网站日志文件在哪里?

【简单说下网站虚拟主机FTP几个文件夹说明】

虚拟主机开通成功以后,会在您的FTP里面自动生成4个文件夹,分别是:databaseslogofiles,othersroot他们作用以下:

1、root文件夹:该文件夹内寄存可以通过web访问的文件,您需要将您对外发布的网站文件上传到该目录下,输入域名访问到的文件将是该文件夹下的文件。

2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户没法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望他人能够访问的文件。比如您可以将access数据库寄存在databases文件夹下,这样可以最大化的保证您的数据库安全。

3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹寄存您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少量差别有都命为:logofiles或WEBLOG反正一般都会带上LOG这一个字母)

4、others文件夹:该站点寄存您自定义的IIS毛病文件。IIS默许的一些毛病提示,比如404毛病,403毛病,500毛病等等,如果您觉得这些毛病提示不够个性化,您可以将您自定义的毛病提示上传到该目录下。

2、怎样分析网站日志文件 分析举例说明

下面已IBM笔记本电脑论坛ebenben最近8月份的日志文件为例说明一下,空间日志代码以下:

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730 - 80 - 220.181.7.24 Baiduspider+(+baidu/search/spider) 200 0 0 20006

1、首先以百度为例,分析说明:

访问时间:2009-08-23 16:06:03

百度蜘蛛的IP:58.61.160.170

蜘蛛爬这的网址: /nb/html/30/t-12730

合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730 网页进行收录或更新了。

【补充说明】

2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;

158.61.160.170 是百度蜘蛛的IP

GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获得内容;/nb/html/30/t-12730 使用HTML1.1协议获得相关内容200 是返回状态码,200是成功获得;404是文件没找到;401是需要密码,403制止查看,500服务器毛病。很明显此例子中最后返回是200,为成功获得!

+(+baidu/search/spider)表示来路

固然,还有部份空间日志会有这样一些代码,他们表示意思以下:

Mozilla/4.0 (patible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar) 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

2、接下来说说googlebot,我盼googlebot已好久了,这几天它终究来了,然后我在google上输入site:seo.9ilp,果然看到了收录文件的更新。

2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550 - 200 Mozilla/5.0+(patible;+Googlebot/2.1;++google/bot)

218.85.132.68查此IP直接给了结果美国 GoogleBot 搜索引擎机器人,呵呵,goolgebot真出名,也很规范。

3、Yahoo也要说说的:

2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658 - 200 Mozilla/5.0+(patible;+Yahoo!+Slurp+China;+hoo/help)

查IP得知是雅虎中国,Yahoo!+Slurp+China是雅虎蜘蛛名,之前是Inktomi Slurp;想查询网站在yahoo的收录情况与google和百度不同的是,你直接在yahoo上输入网址便可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。

说完3大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的,仿佛比门户搜索更差,beta说明搜索版在测试阶段,现在电信采取msn的搜索技术,不知道电信的是什么眼光,呵呵。

2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550 - 200 msnbot-media/1.0+(+n/msnbot)

2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是否是爬虫,它与纯搜索引擎不同,是来侦测流量的占多数,并不是来收录网页的。

2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/inter/20070130/631 - 200 ia_archiver

3)Iask爱问:

2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935 - 200 Mozilla/5.0+(patible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗:

对搜狗,我就觉得可笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在t文件中写着:Disallow: /Brand ,这固然制止访问Brand下的文件,我这里想说的是,1、它sogou不遵照robots协议,2、对已删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404 404;/underwear/Brand/Brand2 200 sogou+spider

5)yodaoice:

对这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404 404;/underwear/f 200 yodaoice

那么多爬虫盯上我的网站,一方面高兴的是就爱SEO论坛的发展还得靠它们,另一方面愁闷的是有些不按规则来抓的对网站的访问会有造成不良的影响。看看比前两周增长很多的日志文件就知道了。

版权所有:就爱SEO论坛

如需转载请附就爱SEO学习论坛本贴链接地址:seo.9ilp/thread-965-1-1

健康科学的减肥方法

快速瘦身

怎么能快速减肥

相关阅读