Perplexity 如何繞過 robots.txt 協定和 WAF 規則抓取網頁內容?
Answer
Perplexity 繞過協定的手段
Perplexity 的 AI 搜尋引擎被揭露採用隱蔽手法繞過網站的 robots.txt 協定與 WAF 規則,以抓取受限的網頁內容。這種行為透過偽裝成 Chrome 瀏覽器,並頻繁變換 IP 位址和 ASN 來規避追蹤與封鎖。Cloudflare 的報告指出,Perplexity 的爬蟲每日對全球網站發送約 2,000 萬至 2,500 萬次請求,顯示其活動範圍廣泛。
Cloudflare 的應對措施
Cloudflare 在發現 Perplexity 的違規行為後,立即採取了多項應對措施。首先,Cloudflare 撤銷了 Perplexity 的「已驗證機器人」資格,使其無法再以合法、透明的方式進行網路爬取。其次,Cloudflare 新增管制規則,旨在阻擋 Perplexity 的隱蔽爬蟲行為,保護客戶的網站內容。此外,Cloudflare 還推出了「AI 爬蟲按次付費」功能,讓網站能夠針對 AI 爬蟲的資料存取設定明確的價格,並新增 AI-bot 專用封鎖規則,讓網站能夠更容易地拒絕或限制未付費的爬蟲。
爭議與回應
針對 Cloudflare 的指控,Perplexity 的發言人 Jesse Dwyer 否認相關爬蟲為自家所有,並稱 Cloudflare 的報告為「銷售話術」。然而,Perplexity 過去曾因未經授權引用全文而陷入「抄襲」爭議,執行長 Aravind Srinivas 對於「抄襲」的定義也曾受到質疑。Cloudflare 在確認客戶設定無誤後,購買了數個全新且對外完全隱藏的測試網域,並在其中下達「全面禁止爬蟲」指令,以此抓包 Perplexity 的違規行為。