Google此次變動如何影響大型語言模型抓取內容?
Answer
Google 移除 num=100 參數對大型語言模型的影響
Google 最近進行了一項看似微小的變更,即刪除了存在長達 20 年的 num=100 參數。此參數原允許使用者在單一搜尋結果頁面中查看最多 100 則連結。移除後,每個搜尋結果頁面最多僅顯示 10 則結果。儘管表面上只是搜尋結果呈現數量的調整,但此舉對大型語言模型 (LLM) 抓取內容的方式產生了重大影響。
對網站曝光及資料抓取的衝擊
num=100 參數長期以來被數據公司用於抓取 Google 搜尋結果。刪除此參數大幅降低了排名較後面的網站的曝光率,因為大多數數據抓取工具現在僅關注前 10 或 20 個搜尋結果。這意味著,許多依賴爬蟲和 Google 搜尋結果的 LLM 更難抓取排名較後的網站內容,從而改變了搜尋結果的生態。AI 行銷平台 Ahrefs 的數據顯示,許多網站(例如 Reddit)的大部分關鍵字排名都在前 20 個搜尋結果之外,因此受到的影響尤為顯著。
Reddit 市值蒸發案例
Reddit 市值因 Google 移除 num=100 參數而暴跌,這是一個典型的案例。在該參數失效後,ChatGPT 等 LLM 引用 Reddit 內容的次數大幅下降。這表明,Google 的這項變更不僅影響了網站的曝光率,還直接影響了 LLM 的訓練數據和內容引用,進而對依賴這些模型的平台的市場價值產生了實質性的影響。