Qwen-Image的訓練資料庫包含哪些類型的圖文配對? | 數位時代

Qwen-Image 的訓練資料庫組成

Qwen-Image 模型是由阿里巴巴旗下的通義千問團隊開發的開源 AI 圖像生成模型,其訓練過程採用了「漸進式學習」和「多模態任務校準」技術。在訓練資料方面,Qwen-Image 使用了數十億組圖文配對,這些配對涵蓋了多種類型的圖像和文字資料。

具體圖文配對類型

Qwen-Image 的訓練資料庫包含以下幾種類型的圖文配對:

訓練成果與應用

透過這些多樣化的圖文配對資料,Qwen-Image 在文字渲染方面的能力顯著提升,能夠準確呈現圖像中的文字,特別是複雜的中文排版與雙語內容。這使得 Qwen-Image 在電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境中具有優勢。此外,Qwen-Image 採用 Apache 2.0 許可證,允許商業與非商業用途,為企業提供了一個低成本的開源選擇,適用於內部行銷、零售與電子商務等多元應用。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容