台大博士生分享「fineweb-zhtw」資料集的目的是什麼?
Answer
台大博士生分享「fineweb-zhtw」資料集的目的
台大博士生分享「fineweb-zhtw」繁體中文資料集的主要目的是為了提供AI訓練使用。這位博士生同時也是一位開源志工,他將這個包含大量繁體中文資料的資料集分享到Facebook的「Generative AI技術交流中心」社團,希望藉此促進台灣在AI研究領域的發展。
資料集內容與爭議
「fineweb-zhtw」資料集包含了自2011年至2021年的大量網路文本,其中也包含了未經授權的新聞內容,特別是來自中央社的約14萬筆新聞資料。由於這些新聞內容未經中央社授權被使用,中央社基於維護著作權的立場,對該名博士生提起了刑事告訴,引發了廣泛的爭議。
各界反應與影響
儘管中央社表示其目的是為了維護新聞著作權,但此舉在網路上引發了大量反彈。許多網友認為,中央社應該將矛頭指向更上游的開源平台和網路爬蟲者,而非起訴分享資料集的學術研究者。有人質疑,若要追究責任,更應該追究如Common Crawl等平台,這些平台才是未經授權抓取新聞內容的源頭。此外,也有評論指出,中央社一方面支持《媒體議價法》,另一方面卻起訴學術研究者,這種做法可能對台灣的AI研究發展造成負面影響。