OpenAI祭出ChatGPT圖像生成重大更新!是說,昨晚我在用ChatGPT時,其實就有發現它的生圖功能變強了,而且是聊著聊著,它就突然說「不然我畫給你看」。咦?這彷彿在炫耀自己有了新的功能,而且品質還真的不錯。沒想到,今天早上就看到這篇新聞了——OpenAI正式宣布GPT-4o取代DALL-E 3,成為ChatGPT內建的圖像生成模型,還有不少非常實用的功能升級。此外,據報導指出,這項功能適用於ChatGPT的免費版、Plus、Team和Pro版本,讓全部的使用者都能夠體驗更強大的圖像創作能力。接下來,讓我們來看看有什麼值得注意的新功能吧。

GPT-4o取代DALL-E 3來生成圖像,為何它能做到?
先來解釋一下,過去ChatGPT內建的影像生成主要依賴DALL-E 3,這是一款專門為圖片生成而設計的AI。然而,這次OpenAI決定讓GPT-4o接管這項任務。過去,DALL-E 3雖然強大,但它仍然是獨立的圖片生成系統,與ChatGPT的對話能力存在斷層。而現在,GPT-4o不僅能理解對話的脈絡,能根據對話內容生成更符合需求的圖片。
更重要的是,這次的更新讓影像細節變得更加精緻。DALL-E 3曾經因為手部、臉部細節的錯誤而備受批評,而GPT-4o則透過「人類訓練師」的回饋機制,對模型進行了更嚴格的調整。在訓練過程中,OpenAI招募了百餘位人類標註師,他們的工作是檢查AI生成的圖像,指出哪裡有錯誤,例如不自然的手指排列、面部扭曲,甚至是細微的比例不對勁。這種「來自人類回饋的強化學習」技術(RLHF),讓AI生圖更加貼近人類審美與直覺。
GPT-4o圖像生成新功能:不只透明背景素材,還看得懂品牌規範
這次更新讓ChatGPT變得更像一位真正的設計助理,而不只是單純的圖像生成工具。GPT-4o帶來了以下幾項核心功能升級:
1. 透明背景生成圖:
這是本次我覺得最驚喜的功能之一,讓你可以直接輸出無背景的圖像(png檔),方便設計Logo、電商圖片與社群媒體素材。以下這張貓咪睡覺圖,我只用了一次指令就完成了。

2. 可上傳品牌設計規範:
使用者可以上傳自家品牌規範,讓AI生成符合品牌調性的圖片,像是顏色、風格規範等,這讓企業在圖像素材的選用上能更具一致性。下圖中,左邊為我請gpt-4o生成的原始貓咪圖,再以為它作為範例去延伸創造不同動作素材。

3. 影像編輯強化:
這次GPT-4o在圖像編輯上的能力不僅比以往更靈活,還解決 DALL-E 3版本的許多限制。它現在可以更精準的處理局部修改,例如更換背景、調整光影、增強細節,甚至在不影響其他元素的情況下修復畫面中的錯誤。更重要的是,GPT-4o對於物件與環境之間的關係理解力更高,讓編輯結果更加自然,而不是單純的像素替換。此外,它還支援更加細緻的筆刷控制,讓使用者能更具體的調整圖像細節,提升整體可用性。
不過,AI圖像生成仍然不是完美的。在OpenAI的測試中,當使用者上傳一張客廳的照片並要求AI重新佈置家具時,GPT-4o雖然能夠改變場景中的擺設,但卻會犯下「少畫一扇窗戶」之類的錯誤,這也顯示目前GPT-4o在理解空間結構方面仍然有待進步。但即便如此,這樣的細節錯誤已經比DALL-E 3來得少。
創作者與AI訓練數據:如何兼顧技術發展與版權保護?
但最後還是不得不提一個敏感的話題,也就是創作者最關注的版權與倫理問題。為了平衡這個問題,OpenAI在本次更新提供了「選擇退出」(Opt-out)機制,讓創作者可以選擇讓OpenAI不將作品納入AI訓練數據。
根據OpenAI的說法,GPT-4o的影像訓練數據主要來自「公開可用數據」與Shutterstock等合作夥伴的授權素材。此外,他們也說明,網站管理員可透過「robots.txt」設定來防止AI爬取網站上的圖片,確保內容不被用於AI訓練。另一方面,OpenAI強調,他們已經實施內容保護機制,防止AI生成「直接模仿」特定藝術家風格的圖片。這表示即便AI曾經學習過某些藝術風格,它在生成圖像時,也會避免過度接近某位藝術家的特定筆觸與構圖。嗯⋯⋯但還記得之前的「史努比之亂」嗎?看來,這項規範還不夠完善。
這次GPT-4o的影像升級讓ChatGPT的「創意助手」功能更進一步,也更加自然了(甚至還會主動「炫耀」自己的新技能?!)。尤其明顯的是,這次更新讓AI圖像生成更貼近商業實務需求,AI味似乎也沒那麼重啦。總之,我很看好本次更新,也迫不及待來更深入的測試一下它的能耐,期待一下後續更完整的實測吧。