Qwen-Image的訓練資料庫包含哪些類型的圖文配對？

Qwen-Image 的訓練資料庫組成

Qwen-Image 模型是由阿里巴巴旗下的通義千問團隊開發的開源 AI 圖像生成模型，其訓練過程採用了「漸進式學習」和「多模態任務校準」技術。在訓練資料方面，Qwen-Image 使用了數十億組圖文配對，這些配對涵蓋了多種類型的圖像和文字資料。

具體圖文配對類型

Qwen-Image 的訓練資料庫包含以下幾種類型的圖文配對：

自然圖像： 涵蓋各種真實場景和物體的照片，例如風景、人物、動物等。
人物肖像： 包含大量的人物肖像照片，用於訓練模型生成逼真的人物圖像。
設計內容： 包括海報、UI 版面等設計作品，用於訓練模型理解和生成具有設計感的圖像。
合成文字資料： 為了提升模型在文字渲染方面的能力，訓練資料庫中還包含了自行生成的合成文字資料。

訓練成果與應用

透過這些多樣化的圖文配對資料，Qwen-Image 在文字渲染方面的能力顯著提升，能夠準確呈現圖像中的文字，特別是複雜的中文排版與雙語內容。這使得 Qwen-Image 在電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境中具有優勢。此外，Qwen-Image 採用 Apache 2.0 許可證，允許商業與非商業用途，為企業提供了一個低成本的開源選擇，適用於內部行銷、零售與電子商務等多元應用。

Qwen-Image的訓練資料庫包含哪些類型的圖文配對？ | 數位時代

Qwen-Image 的訓練資料庫組成

具體圖文配對類型

訓練成果與應用