閱讀記錄

隱藏 →
此為暫時記錄,會在關閉頁面後消失

台大博士生分享「fineweb-zhtw」資料集的目的是什麼?

Answer

台大博士生分享「fineweb-zhtw」資料集的目的

台大博士生分享「fineweb-zhtw」繁體中文資料集的主要目的是為了提供AI訓練使用。這位博士生同時也是一位開源志工,他將這個包含大量繁體中文資料的資料集分享到Facebook的「Generative AI技術交流中心」社團,希望藉此促進台灣在AI研究領域的發展。

資料集內容與爭議

「fineweb-zhtw」資料集包含了自2011年至2021年的大量網路文本,其中也包含了未經授權的新聞內容,特別是來自中央社的約14萬筆新聞資料。由於這些新聞內容未經中央社授權被使用,中央社基於維護著作權的立場,對該名博士生提起了刑事告訴,引發了廣泛的爭議。

各界反應與影響

儘管中央社表示其目的是為了維護新聞著作權,但此舉在網路上引發了大量反彈。許多網友認為,中央社應該將矛頭指向更上游的開源平台和網路爬蟲者,而非起訴分享資料集的學術研究者。有人質疑,若要追究責任,更應該追究如Common Crawl等平台,這些平台才是未經授權抓取新聞內容的源頭。此外,也有評論指出,中央社一方面支持《媒體議價法》,另一方面卻起訴學術研究者,這種做法可能對台灣的AI研究發展造成負面影響。

你想知道哪些?AI來解答

中央社對台大博士生提起刑事告訴的原因是什麼?

more

「fineweb-zhtw」資料集包含哪些未經授權的內容?

more

網友認為中央社應該將矛頭指向誰?

more

起訴分享資料集的學術研究者可能對台灣AI研究發展造成什麼影響?

more

Common Crawl等平台在未經授權抓取新聞內容方面扮演什麼角色?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
分享給好友
line facebook link