「fineweb-zhtw」資料集包含多少筆來自中央社的新聞資料? | 數位時代

「fineweb-zhtw」資料集中中央社新聞資料數量

「fineweb-zhtw」繁體中文資料集中,包含約 14 萬筆來自中央社 (中央通訊社) 的新聞資料。這些資料涵蓋自 2011 年至 2021 年的新聞內容,但未經中央社授權即被收錄於該資料集中。

中央社提告事件背景

中央社因「fineweb-zhtw」資料集未經授權使用其新聞內容,對分享該資料集的台大博士生提起刑事告訴,旨在維護新聞著作權。該名博士生同時也是一位開源志工,將此資料集分享於 Facebook 社團,供 AI 訓練使用。事件曝光後,該博士生已刪除相關貼文並配合調查。

事件引發的爭議與反彈

中央社此舉引發網路上的廣泛爭議,許多網友認為中央社應追究更上游的開源平台和網路爬蟲者,而非起訴分享資料集的博士生。有評論指出,中央社一方面支持《媒體議價法》,另一方面卻起訴學術研究者,可能對台灣的 AI 研究發展造成負面影響。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容