Cloudflare 指控 Perplexity 隱形爬蟲事件中,Perplexity 如何繞過 robots.txt 協定?
Answer
Perplexity 如何繞過 robots.txt 協定
Cloudflare 指控 Perplexity 的爬蟲,包括 PerplexityBot 和 Perplexity-User,無視網站 robots.txt 檔案中的指示,該檔案通常用於告知網路爬蟲哪些頁面不應被抓取。這些爬蟲不遵守這些規則,持續擷取被禁止的內容。
偽裝與繞過 WAF 規則
為了規避偵測與封鎖,Perplexity 的爬蟲會偽裝成常見的 Chrome 瀏覽器,以掩蓋其真實身份。此外,這些爬蟲還會頻繁更換 IP 位址和 ASN(自治系統編號),藉此繞過 Cloudflare 的 WAF(Web Application Firewall)規則。這種策略使得網站難以追蹤和封鎖這些爬蟲。
Cloudflare 的反制措施
Cloudflare 在偵測到 Perplexity 的隱形爬蟲行為後,已撤銷其「已驗證機器人」資格。同時,Cloudflare 也新增了更嚴格的管制規則,旨在阻擋 Perplexity 的爬蟲繼續進行未經授權的資料抓取。這些措施旨在保護網站的內容,並維護網路爬蟲協定的基本信任。