安卓手机无法使用clash

clash1天前clash节点订阅4

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  这是第一次,全世界最大的网络基础设施公司之一,Cloudflare,开始用魔法打败魔法,用AI来对抗AI爬虫。

  你可能现在还有很多疑惑,Cloudflare是什么,AI爬虫是什么,AI迷宫又是什么,这个事到底有意思在哪。

  Triplegangers专注于销售“人体的数字孪生”模型素材,这些高清3D模型照片来自真实的人类扫描,价值巨大。

  这个网站上,一共共有65000个产品页面,每个产品的页面至少放着三张高清照片。 每一张图片,都细致地标注了年龄、肤色、纹身甚至伤疤。

  他惊慌失措地开始调查原因,很快发现,居然是OpenAI的爬虫机器人,GPTBot在攻击他的网站。

  GPTBot疯狂地爬取每一个页面, 数十万张照片、数十万个描述, 在短短几小时内被无情下载。

  这些爬虫机器人使用了整整600个IP地址,数以万计的服务器请求,这种网站哪见过这种架势,网站的服务器瞬间瘫痪,业务陷入停滞。

  Tomchuk人都傻了,不仅自己的数据全丢了,被OpenAI爬的干干净净,更糟的是,由于服务器压力暴涨, 公司还将面临一笔巨额的AWS账单。

  他们这个七人的团队花了十年心血,才构建了这个庞大的数据库,客户遍及游戏开发、动画制作等多个行业。

  但是因为没那么懂AI,也不太知道那些AI大模型公司的玩法,所以没有严格配置robot.txt 文件,没有配专门告知OpenAI的机器人GPTBot不要访问该网站的标签,这基本等同于默认允许了OpenAI的抓取行为。

  关键是吧,配了GPTBot的标签也不够,因为OpenAI还有ChatGPT-User和OAI-SearchBot,这两个标签也要配。你甚至不知道他们还有啥。

  不过这玩意也不是免费的,挺烧钱的,都是成本。但是为了再防一波OpenAI那种流氓行为,他们只能启用。

  这些服务的钱,都还好说,但是让Tomchuk最痛苦的事,他根本不知道,OpenAI到底拿走了多少素材。

  甚至最离谱的是,如果不是OpenAI这么贪,一次性请求太多,直接把Triplegangers爬崩溃了,而是慢慢爬,一点一点的。

  OpenAI的爬虫逻辑很简单,如果你家门口没有保安站岗,那就说明你默认你家里的东西我就都可以拿走,都是我的。因为你没说不准我拿,也没设保安,所以我就可以进门全部洗劫一空。

  在许多许多公司和内容创作者的眼中,AI爬虫就是这个时代的数字蝗虫,所过之处令网站不堪重负,数据还被洗劫一空。

  但这一次,吃相难看的不是OpenAI,而是另一个AI王者,Anthropic公司的爬虫ClaudeBot。

  ClaudeBot在短短24小时内疯狂访问了iFixit近一百万次。直接差点把他们的网站挤爆,触发了所有报警系统,迫使iFixit的运维团队连夜加班处理。

  更离谱的是,iFixit早就明文禁止未经许可抓取他们的内容用于AI训练,这一条清清楚楚地写进了网站的使用条款,甚至特别注明“不得将本网站内容用于机器学习或AI模型的训练”。

  更让无语的是,当这事爆了之后,有媒体就去问Anthropic,对方给出的回应几乎和OpenAI如出一辙:

  言下之意,就是iFixit你自己明明没说啊,没在robots.txt彻底封禁啊,我们当然就有权一直爬下去啊。

  无奈之下,iFixit只好赶紧修改了robots.txt,添加了针对ClaudeBot的延迟和阻止规则。

  可这件事留给业界的震动却挥之不去,坦率的讲,连iFixit这样熟悉网络技术的知名网站,一开始都没料到 AI 爬虫会如此不讲武德,明知道别人不情愿却还要硬闯。

  如果连老牌互联网从业者都防不胜防,那其他那些没技术团队守卫的小网站、小作者,又咋招架这些窃贼?

  知名科技媒体《连线》(Wired)发现,Perplexity的爬虫不仅没有遵守一些网站的robots.txt 禁令,甚至试图悄悄抓取那些明确声明不开放给机器的角落。

  网站管理员可以在站点根目录放一个名为“robots.txt”的文本文件,提前告诉网络机器人,哪里可以爬、哪里不许碰。

  根据robots协议,如果网站在robots.txt里标明了禁止抓取某些内容,那么守规矩的爬虫就应该乖乖止步,不去触碰那些被列入黑名单的路径。

  Google安卓手机无法使用clash、Yahoo等搜索引擎尊重robots.tx 的边界,微软的Bing也是如此,甚至后来各式各样善意的网络爬虫,都把不伤害网站、遵循站长意愿当作职业道德的一部分。

  正因为有robots.txt的存在,网站管理员才愿意敞开大门让搜索引擎索引内容,他们相信敏感或不想公开的角落可以被礼貌地避开。

  当AI爬虫为了填饱模型的数据需求四处出击时,又有多少还真正尊重 robots.txt的边界?

  OpenAI、Anthropic固然口口声声我们遵守robots协议,但事实是,如果你没明确写禁令,他们就默认可以来拿,丝毫不考虑你是否情愿。

  所以,在这种背景下,Cloudflare挺身而出,作为大多数网站前的守护者,他们决定,用魔法打败魔法,用AI,对抗AI。

  因为过往的防御逻辑很简单,就是用验证的方式,直接把这些AI爬虫拦在门外,这样会有个问题,反而会惊动敌人,让他们换个马甲卷土重来。

  在这个迷宫里,所有的页面、链接和内容都是 AI 自动生成的,看上去像模像样,却全都是无意义的空城计。

  而这些迷宫入口对正常用户是隐形的,真人访客根本不会点击到那些陷阱链接。而 AI 爬虫则乐此不疲地一路追踪下去,越陷越深,直到在虚假的信息泥潭中迷失方向。

  这是一场战争,一边是如狼似虎、到处搜刮数据的AI爬虫大军,另一边则是苦苦守卫自己数字领土的网站站长和内容创作者们。

  互联网历史上类似的矛盾并非首次:音乐产业曾与数字盗版激烈交锋,新闻出版商也为搜索引擎收录内容而抗议。

  但是有没有想过内容生产者的感受呢?知识和创意的源头若得不到尊重和回报,最终枯竭的将是创新本身。没有人愿意辛苦耕耘却被机器毫无顾忌地偷走成果。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

安卓版clash配置文件在哪

安卓版clash配置文件在哪

  在过去的几年里,关于云原生环境的攻击报告越来越多。结合在众多大型客户云原生安全项目上的支持经验和各类报告研究分析,我们对攻击者的战术、TTPs、活动周期、攻击复杂程度都有了一定了解。为...