Podcast RSS 每日播报 2025-03-28

AI 爬虫肆虐网站，站长不堪其扰

近期，《科技爱好者周刊》关注了 AI 爬虫给网站管理员带来的困扰。为了训练 AI 模型，各大公司派出大量爬虫肆意抓取网络数据，对许多网站服务器造成巨大压力，甚至导致服务中断。代码托管网站 SourceHut 站长抱怨，这些 AI 爬虫完全无视 robots.txt 协议，如同 DDoS 攻击般爬取网站，严重影响了网站的正常运行。

Anubis：工作量证明反爬虫工具

面对 AI 爬虫的肆虐，文章介绍了一款名为 Anubis 的反爬虫工具，它利用“工作量证明”（Proof-of-Work）机制来保护网站。Anubis 作为一个反向代理，在用户访问网站前设置了一道验证关卡。用户的浏览器需要执行一段 JavaScript 代码，进行复杂的数学计算并通过验证后，才能正常访问目标网站。

Anubis 工作原理

Anubis 的工作原理类似于比特币等加密货币，使用了 SHA256 哈希算法。客户端浏览器需要不断计算哈希值，直到结果满足特定条件。这个计算过程对于真实用户而言，可能只需一两分钟，但对于爬虫程序来说，每个请求都需要消耗大量的计算资源，从而显著增加爬取成本，有效阻止恶意爬虫。虽然这种机制会牺牲少许用户体验，但相较于网站被爬虫拖垮，这或许是一种可以接受的权衡方案。

Anubis 效果与总结

经过站长实测，Anubis 能够有效拦截大部分机器人流量，验证了其反爬虫效果。如果你正遭受 AI 爬虫困扰，又无法使用 Cloudflare 等商业服务，不妨尝试 Anubis 这个开源工具，或许能有效缓解你的燃眉之急。

Google Docs 奇葩 Bug 故事：十年难解的 V8 引擎幽灵

今天分享一个关于 Google Docs 遇到的奇特 bug 故事，相信能引起程序员们的共鸣。这个 bug 潜伏了大约十年之久，如同幽灵般难以捉摸，排查过程更是令人头疼。一位 Google Docs 工程师回忆起这段经历，描述为一个凭空出现、毫无头绪的诡异错误。

难以追踪的 V8 引擎底层 Bug

这个 bug 的特殊之处在于，它并非常见的代码逻辑错误，而是隐藏在 V8 引擎底层的深层问题。更令人崩溃的是，这个 bug 并非稳定复现，时而出现，时而消失，如同幽灵一般难以捉摸。工程师团队尝试了各种调试方法，包括代码审查和日志分析，但始终未能找到任何线索。

V8 团队出手，问题终得解决

最终，这位工程师不得不求助于 Google 内部 V8 引擎团队的专家，因为只有他们才对 V8 引擎的内部运作机制有着深入的了解。经过 V8 团队的深入调查和分析，最终找到了问题的根源：原来是 V8 引擎在处理某些特定场景时，存在一个极其罕见的边界条件 bug。这个 bug 在日常使用中几乎不会被触发，但在 Google Docs 的特定使用情境下，偶尔会冒出来作祟。

总结与反思

在 V8 工程师的帮助下，Google Docs 团队最终成功解决了这个长期困扰他们的难题。这位工程师感慨，这次经历让他深刻体会到，bug 的出现有时会超出人们的想象，甚至需要跨团队、跨领域的合作才能最终解决。回顾我们日常 debug 遇到的各种难题，再听听这个故事，或许会感到一丝安慰：至少我们还没遇到如此棘手的“幽灵” bug！