是一个由开源的情报搜集爬虫,其主要功能有:

1.爬取链接(内链、外链)。

2.爬取带参数的链接,如(/test?id=2)。

3.文件(pdf, png, xml)。

4.密钥(在前端代码中不小心被释放出来的)。

5.js文件和(中比较重要的监视器)

6.匹配自定义正则表达式的字符串。

7.子域名和DNS相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。而且提取出来的数据格式非常整洁:

图片

不仅如此,它甚至支持json格式 ,仅需要在输入命令的时候加上json参数:

.py -u “” –=json

为什么能用来做情报搜集呢?耐心往后看哦。

1.下载安装

你可以上的下载完整项目:

或者关注下方实用宝典公众号在后台回复获得国内网盘下载地址。下载后解压到你想要使用的地方。如果你还没有安装,建议阅读这篇文章:,进行的安装。

安装完后,打开CMD()/(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装的依赖:

pip -r .txt

如图所示:

2.简单使用

注意,使用的时候要在文件夹下。比如我们随便提取一个网站的URL试一下,在终端输入以下命令:

.py -u

结果如下:

图片

它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是 :

图片

嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连CDN文件地址都会放在这里,所以可能是个藏宝库哦。

图片

还能一下找出该网站上链接的全部开源项目:

图片

3.扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你技术够强的话)。因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:

图片

相比于搜索引擎搜索的结果,实际上这些信息更符合情报的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通过这个,你可以顺藤摸瓜找到那些隐藏在互联网世界的它们。

试想一下,如果你搜集了很多这样的网站…然后用正则表达式搭建一个属于你自己的搜索引擎,这样的感觉是不是很棒?

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666

声明:1、本内容转载于网络,版权归原作者所有!2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!