Photo by Joshua Woroniecki on Unsplash
Cloudflare研究人员声称,尽管AI机器人阻断,Perplexity仍在抓取网站数据
互联网基础设施提供商Cloudflare的研究人员声称,AI系统Perplexity一直在未经许可的情况下从网站上抓取内容,即使出版商已经实施了AI机器人阻挡。
赶时间?这里有快速事实:
- Cloudflare声称Perplexity未经许可就从各网站擅自抓取内容。
- 即使发布者实施了AI机器人阻止措施,研究人员也证实了Perplexity的“隐形爬行”行为。
- Perplexity的一位发言人称Cloudflare的报告为“公关噱头”。
根据周一Cloudflare分享的报告,Perplexity 使用其默认的用户代理来爬取网站,并切换其身份以绕过这些阻止。Cloudflare的专家们证实了这种“隐形爬取”行为。
“我们持续发现证据表明,Perplexity不断修改他们的用户代理并更改他们的源ASN以隐藏他们的爬取行为,同时忽视——或有时甚至未能获取——robots.txt文件,”研究人员写道。
爬虫应该要透明,清晰地说明其用途,并尊重网站的偏好,但研究人员声称Perplexity并未遵循这些信任原则。这个结论是在收到客户投诉后进行的调查中得出的。
“我们收到了客户的投诉,他们既在他们的robots.txt文件中禁止了Perplexity的爬虫活动,又专门创建了WAF规则来阻止Perplexity声明的两个爬虫:PerplexityBot和Perplexity-User,”研究人员写道。“这些客户告诉我们,即使他们看到其机器人成功地被阻止,Perplexity仍然能够访问他们的内容。”
Cloudflare的研究人员表示,他们通过复制阻止操作并进行多次测试来验证这些说法,以观察爬虫的行为。在一次测试中,他们创建了尚未被索引并且包含robots.txt文件以阻止“尊重性机器人”的新域名。后来,他们向Perplexity查询了关于这些受限域名的特定信息,并发现这个AI驱动的答案引擎仍然提供了关于网站的详细和准确的信息。
“这个反应出乎我们的预料,因为我们已经采取了所有必要的预防措施,防止他们的爬虫能够检索到这些数据,”研究人员补充说。
Perplexity的发言人Jesse Dwyer在向The Verge发表声明时,将这项研究称为“公开噱头”。Dwyer补充说,Cloudflare的报告中存在一些“误解”。
Cloudflare一直在开发多种工具,帮助出版商防止未经授权的AI爬虫。今年3月,Cloudflare发布了“AI迷宫”,这是一种将未经授权的爬虫重定向到AI生成的内容迷宫中的工具。上个月,它推出了“按爬取付费”系统,对AI机器人访问出版商的内容进行收费。