OpenAI 宣布新推出 ChatGPT Image 2.0,圖像生成技術又再突破,甚至比 Google 的 Nano Banana 更強。新圖像生成模型強調推理思考能力,支援多語言文字生成, 以及接近專業攝影級數的影像效果。今次更新提升畫質與細節處理,更針對平面廣告設計、品牌視覺及數碼內容創作等加強商業應用。OpenAI 強調設計師、市場營銷人員可用 ChatGPT Image 2.0 大幅降低製作成本,同時提升創作效率。不過對於一眾廣告攝影和美術設計人員,可要擔心工作可能不保⋯⋯

今次升級最明顯的改進,在於處理影像細節和真實感。過往 AI 生成圖片,常見問題包括手部變形、文字扭曲或不順、光影不自然等,而 ChatGPT Image 2.0 透過更精細模型訓練,令人物比例、材質質感、甚至反光同陰影都更貼近真實攝影效果。所生成的影像甚至可直接用於商業,如海報、社交平台造圖等,製作成本同時間均都下降。
另一個重點是提升「可控」。用戶可以更精準描述畫面構圖、鏡頭角度、燈光風格,甚至模擬特定攝影語言,例如產品硬照、時尚雜誌封面、戶外廣告視覺等。以往需要攝影師、燈光師、後期設計師配合完成的畫面,現時透過文字指令能快速生成初稿。


加強推理和處理文字能力
ChatGPT Image 2.0 對文字生成能力亦有改善。過去 AI 圖片中加入品牌名稱或標語時,往往出現錯字或變形,而今次版本在字體排列同可讀性上有明顯進步。尤其加強非中文、日文等非拉丁語系的文字,生成更為準確。對於設計海報、社交平台造圖,大幅提升實用性。


新模型的關鍵升級是加入思考和推理能力,不再根據關鍵字拼湊畫面,而可以理解複雜指令之間嘅邏輯關係,例如場景中人物之間的互動、前後景層次、甚至品牌訊息及風格。用戶輸入一段較完整嘅創意簡報(brief),模型可以「理解意圖」,再轉化成視覺輸出,不再單純逐句對應生成。廣告設計用戶可以將意念直接變成故事皮板,具體地解釋創作想法。創作人可籍此更快速從意念到執行,將想法轉為真實可用的進階設計。
現時 ChatGPT 用戶已可用 ChatGPT Image 2.0,惟免費用戶只能用基本的 ImageGen 模型,訂購 Pro 和 Plus 方案用戶獲進階的 Thinking 功能。Pro 訂戶更有 ImageGen Pro 模型可用。

中國文心一言圖像模型曇花一現
中國的百度於幾日前才升級「文心一言」圖像模型(ERNIE-Image),一度是最強的圖像模型,尤其支援圖內的文字,不過好快又被 OpenAI 追過。文心一言圖像模型為 8B 參數的開源模型,可在消費級 GPU 上執行,加強生成可讀文字,精準處理海報、漫畫分鏡等複雜結構。



