2024年网站日志的制作 篇1
网站日志又称蜘蛛日志,它是成千上万个“蜘蛛”小爬虫程序每天爬行数千万个网站,这个小爬虫程序就是“蜘蛛”,它在网站爬行后留下的轨迹或痕迹就是“日志”。
一、国内常见的蜘蛛名称:Baiduspider;360Spider;sogou spider。
二、在分析日志时需要熟知蜘蛛HTTP状态码:
2XX:抓取成功,200抓取全部成功。
3XX:重定向,301永久重定向。
4XX:客户机出现错误,404找不到指定文档。
5XX:服务器出现错误。
三、完整的一串蜘蛛日志都包括那些:蜘蛛访问IP;访问时间;获取方法;访问的页面;返回状态码;页面抓取字节;蜘蛛名称及蜘蛛地址。
对于一个刚上线的网站,我们能分析出来搜索引擎蜘蛛抓取的情况;如果网站长时间收录有问题,那么我们也可以对比网站日志中的搜索引擎蜘蛛行为,来了解网站是哪方面出了问题;如果网站被封,或者被K,我们都可以通过观察网站日志的情况来了解原因出在什么地方。我们要看的网站日志的分析和诊断就像给网站看病一样,我们通过网站日志的分析,可以简单明了的就知道网站的健康状况,可以利于我们更好的做网站优化,所以对于真正的SEO高手而言,分析蜘蛛日志是最直观,最有效的额。
2024年网站日志的制作 篇2
网站日志该分析哪些数据呢?从基础信息、目录抓取、时间段抓取、IP抓取、状态码这几点来分析:
第一、基础信息
下载一个网站日志文件工具获取基础信息:总抓取量、停留时间(h)及访问次数;通过这三个基础信息可以算出:平均每次抓取页数、单页抓取停留时间,然后再用MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率:
平均每次抓取页数=总抓取量/访问次数
单页抓取停留时间=停留时间*3600/总抓取量
爬虫重复抓取率=100%—唯一抓取量/总抓取量
统计出一段时间的数据,可以看出整体趋势是什么样的,这样就可以发现问题,才能够调整网站的整体策略。下面用一个站长的日志基础信息为例:
日志基础信息
从日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需要加强。
网站日志文件该分析哪些数据
总抓取量
从这个整体走势来看出,爬虫的抓取总量整体是在下降的,这个就需要我们进行一些相应的调整。
网站日志文件该分析哪些数据
蜘蛛重复抓取率
整体来看,网站重复抓取率是有点上升的,这个就需要一些细节,多一些为抓取的入口和使用一些robots及nofollow技巧。
单面停留时间
爬虫单面的停留时间,曾经有看到过一篇软文,网页加载速度是如何影响SEO流量的;提高网页加载速度,减少爬虫单面停留时间,可以为爬虫的总抓取做出贡献,进而增加网站收录,从而提高网站整体流量。在16号至20号左右服务器出现一些问题,之后进行调整后,速度明显变快,单页停留时间也相应的下来了。
而对此进行相应调整如下:
从本月整理来看,爬虫的抓取量是下降的,重复抓取率是上升的。综合分析,需要从站内链接和站外的链接进行调整。站内的链接尽量的带锚文本,如果不能带的话,可以推荐其他页面的超链接,让蜘蛛尽可能的深层次的抓取。站外链接的话,需要多方面的发布。目前平台太少了,如果深圳新闻网、商国互联等站点出现一丝差错的话,我们站点将受到严重影响。站外平台要广,发布的链接要多样话,不能直发首页的,栏目及文章页面需要加大力度。目前,来讲站外平台太少,将近10w的外部链接,集中在几个平台上。
第二、目录抓取
用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果。
爬虫抓取的目录
绿色:主做栏目 黄色:抓取较差 粉色:抓取很差 深蓝色:需要禁止栏目
网站日志文件该分析哪些数据
目录整体趋势
可以看到整体的趋势并没有太大变化,只有两个栏目的抓取是有较大变动的。
整体抓取较少。主做栏目中,抓取较少的为:xxx、xxx、xxx。对于总体来说,需要加大整个网站的导入口,需要外链配合,站内需要加强内部链接的构建。对于,爬取较弱栏目进行加强处理。同时,深蓝色的栏目写入robots中,将其屏蔽,并将网站中导入到这些栏目是URL进行nofollow避免权重只进不出。
第三、时间段抓取
通过excel中的数组函数,提取每日的时间段的爬虫抓取量,重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。
网站日志文件该分析哪些数据
时间段抓取
某日哪个时间点出问题了,而且同样是总抓取是下降的趋势。
网站日志文件该分析哪些数据
时间段趋势
通过时间段抓取,我们进行相应的调整:
通过图中的表色,可以看出服务器并不是特别的稳定,我们需要加强服务器的稳定性。另外,17、18、19三天,连续被人攻击、挂链等,但是爬虫抓取正常,这说明这些对网站已经造成了一定影响!
第四,IP段的抓取
通过MSSQL提取日志中的爬虫的IP,通过excel进行统计,每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。
网站日志文件该分析哪些数据
IP段抓取
第五,状态码的统计
在这个之前你需要了解下,HTTP状态码返回值代表是什么。
状态码统计
如果一个网站被搜索引擎抓取的次数以及频率越多那么他是越有利于排名的,但是如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数,从而让自己的网站排名比别人落一步。调整:服务器可以清除下缓存。
状态码统计
百度爬虫的数据图,密密麻麻的数据,以上所有的数据都是从这里调用出来的
2024年网站日志的制作 篇3
通过分析网站日志Log文件可以看到用户和搜索引擎访问网站的数据,这些数据可以分析出用户和搜索引擎对网站的喜好以及网站的情况。网站日志分析主要是分析蜘蛛爬虫的爬行轨迹。
蜘蛛爬虫抓取和收录的过程中,搜索引擎会给特定权重网站分配相应的资源量。一个符合搜索引擎友好性的网站应该充分的利用这些资源,可以让蜘蛛爬虫快速、准确、全面的抓取有价值、用户又喜欢的内容,而不是浪费资源,访问没有价值的内容上。
接下来就详细的了解一下,网站日志如何分析吧!
1、访问次数、停留时间、抓取量
从这三项数据中可以知道平均每次抓取页面的数量、单页抓取停留时间和平均每次停留的时间。从这些数据可以看出蜘蛛爬虫的活跃度、亲和程度、抓取深度等等,总访问的次数、停留时间、抓取量、平均抓取页面、平均停留时间越长,就说明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,网站访问速度越慢,越不利于搜索引擎的抓取,应该尽量提高网站页面加载速度,减少单页抓取停留时间,这样可以让搜索引擎收录更多页面。另外,根据数据也可以统计出一段时间内网站运营的整体趋势,例如,蜘蛛访问次数趋势、停留时间趋势、抓取趋势。
2、目录抓取统计
通过分析网站日志可以了解到网站哪些目录蜘蛛爬虫比较喜欢,抓取目录的深度、重要页面目录抓取情况、无效页面目录抓取情况等等。通过对比目录下页面的抓取以及收录情况可以发现更多问题。对于重要目录,需要通过内外调整增加权重以及抓取率,对于无效页面,可以在robots.txt中进行屏蔽。另外,通过网站日志可以看到网站目录的效果、优化的是否合理,是否达到预期效果。于同一目录,以长期时间段来看,我们可以看到该目录下页面表现,根据行为推测表现的原因等。
3、页面抓取
在网站日志分析中,可以看到搜索引擎抓取的具体页面。在这些页面中,可以分析出哪些页面是不被抓取的,哪些页面是没有价值的,还有就是抓取了哪些重复的URL等等,必须充分的利用资源,将这些地址添加到robots.txt中。另外还可以分析未收录页面的原因,对于新文章,是因为没有被抓取而未收录,还是抓取了没有放出来。
4、蜘蛛访问IP
通过蜘蛛IP是否能判断出网站降权情况,答案是不能的。网站降权主要从前三项数据来判断,,如果想用IP来判断,那是不可能的。
5、访问状态码
蜘蛛经常出现301、404状态码,如果返回状态码是304,那么网站就是没有更新的,出现这些状态码的时候,一定要及时处理,要不然会对网站造成不好的影响。
6、抓取时间段
通过分析对比搜索引擎的抓取量,可以了解搜索引擎在特定的时间的活跃度。通过对比周数据,可以了解到搜索引擎的活跃周期,这样对于网站更新内容有着重要意义。
7、搜索引擎抓取路径
在网站日志中,可以跟踪到特定IP的访问路径,跟踪特定的搜索引擎的访问路径能够发现对网站抓取路径的喜好。所以,可以引导搜索引擎来进入抓取路径中,这样可以让搜索引擎抓取更重要,更有价值的内容。
2024年网站日志的制作 篇4
我在2000年前后运营过几个网站,对于建站流程和运营还是比较熟悉的,如果单从如何搭建一个个人网站的角度回答这个问题,其实比较简单,但是从如何运营个人网站,那么回答起来还真不是一件简单的事情。
因为,建站是为了达成自己的目标,如果不搞明白建站目的,以及网站建成后如何运营这个网站的问题,那么,即便是建成了网站,也不会达成自己建站的初衷,最终不了了之,不但浪费了资金还浪费了时间。
因此,想做一个个人网站,首先要任务就是考虑网站的定位问题,然后在开始准备网站的建设工作。一:定位
1.如果仅仅是发表些个人日志等信息,那么如今网络上的很多都能满足这个需求,仅限个人查看的有有道云笔记、印象笔记等等,可以设置仅限为自己阅读或者公开发表的就更多了,微信朋友圈、qq空间、知乎、简书等等,网易lofte轻博客、新浪博客等,这一类只需要注册账号就可以在上面发表内容了。
2.如果是想实现更多的网站功能,如打造个人品牌、为自己的产品引流、产品订单功能等,则需要制作专门的网站或者使用专门的网站模板。二:下面就给大家详细介绍一下建站的5个步骤:
1.注册域名
建议到大的域名注册商网站注册域名,如阿里系的万网、腾讯系的腾讯云等等,域名后缀首选.com,其次在考虑其他后缀的域名。
2.购买空间
首选国内空间,其实是香港空间或者是国外的空间,但值得注意的是,如果选择国内空间,后期必须进行域名备案后才能访问,一般空间服务商都会协助你完成备案工作。
3.网站程序编辑、上传、调试
这里牵扯到网站程序是请人根据自己的需求定做网站程序,还是选择现成的网站模板进行安装,如果是请人制作网页则比较费时,而且价格从几百到上万都有。如果是利用模板相对就简单多了,给大家推荐几个知名的网站系统供大家选择:
Wordpress :插件功能全,模板数量多,国内国外很多网站制作者都在用这款网站程序,seo方面做得也非常好,是当之无愧的网站模板王者
bo-blog:是国内一款轻便、简洁随心的博客程序,有很多漂亮的中国化模板可以选择。
Z-Blog:有多款模板类型可以选择,如博客自媒体/新闻资讯类、文章类、MipCms综合类等等
emlog : emlog是一款基于PHP和MySQL的功能强大的博客及CMS建站系统。可提供极其简单、舒适的内容创作及站点搭建服务。
以上网站程序基本功能都是免费的,如果需要个性化的功能则需要支付相应费用,而却网站程序的编辑、上传、调试等都需要用到专门的工具,需要具备一定的网站程序编辑知识才能顺利完成。
还有一种方式是在线网站建设,只需注册一个账号,选择一个适合自己风格的网页模板,然后将自己的内容上传到网站即可,可以绑定自己注册的域名。这种在线类网站建设服务平台也比较多,大家可以在网上搜一下,基础功能基本都是免费的。
4.域名解析
将自己注册的域名解析到购买的网站空间IP地址上,域名解析后一般要等30分钟到2个小时才能生效。
5.提交备案信息
把网站空间和网站程序搭建好后,就可以提交备案信息了,需要注意的是,不同空间服务商都有自己的备案接入,具体可以咨询自己的空间服务商,他们可以协助自己进行备案。
备案成功后,网友就可以通过你的域名直接访问到自己网站上的内容了。
【如果我的回答对大家有所帮助,请为我点赞、转发,谢谢大家】