Cloudflare為何指控Perplexity以隱形爬蟲繞過網站robots.txt與WAF規則?
Answer
Cloudflare 指控 Perplexity 隱形爬蟲事件始末
Cloudflare 指出,AI 搜尋引擎 Perplexity 使用隱形爬蟲繞過網站的 robots.txt 協定和 WAF 規則,以獲取受限的網頁內容。這種行為違反了網路共識,衝擊了網站對於合法爬蟲的基本信任機制。Perplexity 在被網站封鎖後,並未停止資料擷取,而是利用偽裝成 Chrome 瀏覽器的爬蟲繼續抓取資料。
爬蟲行為與 Cloudflare 的應對
據 Cloudflare 的觀測,Perplexity 的爬蟲,包括 PerplexityBot 和 Perplexity-User,會忽略 robots.txt 中禁止抓取資料的指令,並且設法繞過 WAF 的封鎖。該爬蟲偽裝成 Chrome 瀏覽器,頻繁更換 IP 和 ASN,每天對全球網站發出約 2,000 萬至 2,500 萬個請求。Cloudflare 在發現此行為後,已撤銷 Perplexity 的「已驗證機器人」資格,並新增管制規則,以阻擋其隱形爬取行為。
Perplexity 的回應與業界影響
對於 Cloudflare 的指控,Perplexity 發言人 Jesse Dwyer 反駁稱相關貼文只是 Cloudflare 的「銷售話術」,並否認爬蟲為自家所有。然而,Perplexity 過去曾因未經授權引用全文而陷入「抄襲」爭議。Cloudflare 近期推出了「AI 爬蟲按次付費」功能,讓網站可以為資料存取設定價格,並在免費的「Bot Fight Mode」中新增 AI-bot 專用封鎖規則,使網站能夠拒絕或限制未付費的爬蟲,從而掌握內容授權的主導權。