Qwen-Image的訓練資料庫包含哪些類型的圖文配對?
Answer
Qwen-Image 的訓練資料庫組成
Qwen-Image 模型是由阿里巴巴旗下的通義千問團隊開發的開源 AI 圖像生成模型,其訓練過程採用了「漸進式學習」和「多模態任務校準」技術。在訓練資料方面,Qwen-Image 使用了數十億組圖文配對,這些配對涵蓋了多種類型的圖像和文字資料。
具體圖文配對類型
Qwen-Image 的訓練資料庫包含以下幾種類型的圖文配對:
- 自然圖像: 涵蓋各種真實場景和物體的照片,例如風景、人物、動物等。
- 人物肖像: 包含大量的人物肖像照片,用於訓練模型生成逼真的人物圖像。
- 設計內容: 包括海報、UI 版面等設計作品,用於訓練模型理解和生成具有設計感的圖像。
- 合成文字資料: 為了提升模型在文字渲染方面的能力,訓練資料庫中還包含了自行生成的合成文字資料。
訓練成果與應用
透過這些多樣化的圖文配對資料,Qwen-Image 在文字渲染方面的能力顯著提升,能夠準確呈現圖像中的文字,特別是複雜的中文排版與雙語內容。這使得 Qwen-Image 在電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境中具有優勢。此外,Qwen-Image 採用 Apache 2.0 許可證,允許商業與非商業用途,為企業提供了一個低成本的開源選擇,適用於內部行銷、零售與電子商務等多元應用。