首页 » 7788 »

BlogChecker功能说明

2018年5月4日 / 50次阅读
小软件

打开支付宝首页,搜索“529018372”,即可领取红包!可重复领。

BlogChecker是麦新杰的第一个基于Python的学习作品,专为WordPress博客网站打造,用于检测网站中各种链接和资源的可访问性,比如检测死链。当然,也可用于其它类型网站的检测。目前还未对外发布,先在这里随开发的推进,记录下软件的功能。

 

BlogChecker功能说明:

1, 暂时仅支持HTTP协议的网站资源抓取检测,可检测的资源包括:

英文顶级域名(中文域名未做测试);
所有网页;
所有图片(包括响应式图片srcset);
所有网站内外部资源文件(CSS,JS);
所有直接外部链接(未区分是否有nofollow);

2, 支持抓取检测网站直接的外部链接(不会随外部链接继续跳转到别的外部链接),仅head一下,检测连通性,不会get具体内容;所有Content-Type是非text/html类型的链接,都是仅仅head一下,加快检测速度;

3, 对于head失败的链接,有后续的多次重复检测机制,在重复检测时,有强制延时,尽可能确保检测结果的真实性;

4, 【Working on】单进程同步工作模式(别把网站服务器搞死了...);

5, 【Working on】支持抓取检测网页中的文本链接(即没有<a>元素加持的链接文本,但必须是以http://开头);

6, 【Working on】支持检测这样的问题链接:

相对路径链接(?);
本身错误的链接(OK,比如“http://我是麦新杰”);
www.maixj.net这样没有前缀协议说明的链接(?);
maixj.net这样的顶级域名链接(?);

7, 【Working on】输出三份CSV文件

A_xxx(All), 一份说明所有抓取到的链接的各种信息,HTTP状态码,链接内容,抓取时的重试次数,自动添加的url前缀(看第7点说明),响应时间;
R_xxx(Relationship), 一份说明在哪个网页下,有哪些问题链接(problem link),都是什么样的问题;这个表过滤掉了302指向自己的链接,这些链接在WordPress系统中,通常都是由回复评论的链接生产;除此之外,非200状态的链接,默认属于problem link;这个表格可能会很大,假设网站有一个problem link在每个页面都出现;
T_xxx(Times), 一份说明都有哪些problem link,这些problem link一共在多少个不同的页面中出现过(出现次数);此表用来辅助用户解决问题,比如有些图片链接在此表中出现次数太多,解决方案除了一处处地更换图片之外,还可以考虑将此名称的图片恢复;比如有些problem link出现次数太多,可以先想办法修复这个link,然后重新scan一次,以减少b_xxx这个表格的大小,然后续的修复能够做得轻松惬意;

 

 

BlogChecker V0.011运行图片:

BlogChecker V0.011运行图片

BlogChecker V0.011运行图片

本文链接:http://www.maixj.net/misc/blogchecker-gongneng-17832
云上小悟 麦新杰(QQ:1093023102)

相关文章

评论是美德

《BlogChecker功能说明》有1条评论

无力满足评论实名制,评论对非实名注册用户关闭,有事QQ:1093023102.

  • 麦新杰

    刚开始搞博客的时候,以为自己可以永远不删除博文,现在发现,这是不现实的,而且,博文单页的链接也常常会发生变化和调整,这样就会带来404和301链接。有了BlogChecker这个工具的协助,修复这些链接的事情就简单轻松了很多,自己也更加大胆的修改链接,以及增加各种外部链接(以前是担心这些链接会在某一天变成404). [ ]


前一篇:
后一篇:

栏目精选

云上小悟,麦新杰的独立博客

Ctrl+D 收藏本页

栏目

AD

ppdai

©Copyright 麦新杰 Since 2014 云上小悟独立博客版权所有 备案号:苏ICP备14045477号-1。云上小悟网站部分内容来源于网络,转载目的是为了整合信息,收藏学习,服务大家,有些转载内容也难以判断是否有侵权问题,如果侵犯了您的权益,请及时联系站长,我会立即删除。

网站二维码
go to top