DALL-E 3退場，GPT-4o圖像生成重大升級！可生成透明底圖AI素材庫時代來了嗎？

OpenAI祭出ChatGPT圖像生成重大更新！是說，昨晚我在用ChatGPT時，其實就有發現它的生圖功能變強了，而且是聊著聊著，它就突然說「不然我畫給你看」。咦？這彷彿在炫耀自己有了新的功能，而且品質還真的不錯。沒想到，今天早上就看到這篇新聞了——OpenAI正式宣布GPT-4o取代DALL-E 3，成為ChatGPT內建的圖像生成模型，還有不少非常實用的功能升級。此外，據報導指出，這項功能適用於ChatGPT的免費版、Plus、Team和Pro版本，讓全部的使用者都能夠體驗更強大的圖像創作能力。接下來，讓我們來看看有什麼值得注意的新功能吧。

GPT-4o取代DALL-E 3來生成圖像，為何它能做到？

先來解釋一下，過去ChatGPT內建的影像生成主要依賴DALL-E 3，這是一款專門為圖片生成而設計的AI。然而，這次OpenAI決定讓GPT-4o接管這項任務。過去，DALL-E 3雖然強大，但它仍然是獨立的圖片生成系統，與ChatGPT的對話能力存在斷層。而現在，GPT-4o不僅能理解對話的脈絡，能根據對話內容生成更符合需求的圖片。

更重要的是，這次的更新讓影像細節變得更加精緻。DALL-E 3曾經因為手部、臉部細節的錯誤而備受批評，而GPT-4o則透過「人類訓練師」的回饋機制，對模型進行了更嚴格的調整。在訓練過程中，OpenAI招募了百餘位人類標註師，他們的工作是檢查AI生成的圖像，指出哪裡有錯誤，例如不自然的手指排列、面部扭曲，甚至是細微的比例不對勁。這種「來自人類回饋的強化學習」技術（RLHF），讓AI生圖更加貼近人類審美與直覺。

GPT-4o圖像生成新功能：不只透明背景素材，還看得懂品牌規範

這次更新讓ChatGPT變得更像一位真正的設計助理，而不只是單純的圖像生成工具。GPT-4o帶來了以下幾項核心功能升級：

1. 透明背景生成圖：

這是本次我覺得最驚喜的功能之一，讓你可以直接輸出無背景的圖像（png檔），方便設計Logo、電商圖片與社群媒體素材。以下這張貓咪睡覺圖，我只用了一次指令就完成了。

2. 可上傳品牌設計規範：

使用者可以上傳自家品牌規範，讓AI生成符合品牌調性的圖片，像是顏色、風格規範等，這讓企業在圖像素材的選用上能更具一致性。下圖中，左邊為我請gpt-4o生成的原始貓咪圖，再以為它作為範例去延伸創造不同動作素材。

3. 影像編輯強化：

這次GPT-4o在圖像編輯上的能力不僅比以往更靈活，還解決 DALL-E 3版本的許多限制。它現在可以更精準的處理局部修改，例如更換背景、調整光影、增強細節，甚至在不影響其他元素的情況下修復畫面中的錯誤。更重要的是，GPT-4o對於物件與環境之間的關係理解力更高，讓編輯結果更加自然，而不是單純的像素替換。此外，它還支援更加細緻的筆刷控制，讓使用者能更具體的調整圖像細節，提升整體可用性。

不過，AI圖像生成仍然不是完美的。在OpenAI的測試中，當使用者上傳一張客廳的照片並要求AI重新佈置家具時，GPT-4o雖然能夠改變場景中的擺設，但卻會犯下「少畫一扇窗戶」之類的錯誤，這也顯示目前GPT-4o在理解空間結構方面仍然有待進步。但即便如此，這樣的細節錯誤已經比DALL-E 3來得少。

創作者與AI訓練數據：如何兼顧技術發展與版權保護？

但最後還是不得不提一個敏感的話題，也就是創作者最關注的版權與倫理問題。為了平衡這個問題，OpenAI在本次更新提供了「選擇退出」（Opt-out）機制，讓創作者可以選擇讓OpenAI不將作品納入AI訓練數據。

根據OpenAI的說法，GPT-4o的影像訓練數據主要來自「公開可用數據」與Shutterstock等合作夥伴的授權素材。此外，他們也說明，網站管理員可透過「robots.txt」設定來防止AI爬取網站上的圖片，確保內容不被用於AI訓練。另一方面，OpenAI強調，他們已經實施內容保護機制，防止AI生成「直接模仿」特定藝術家風格的圖片。這表示即便AI曾經學習過某些藝術風格，它在生成圖像時，也會避免過度接近某位藝術家的特定筆觸與構圖。嗯⋯⋯但還記得之前的「史努比之亂」嗎？看來，這項規範還不夠完善。

這次GPT-4o的影像升級讓ChatGPT的「創意助手」功能更進一步，也更加自然了（甚至還會主動「炫耀」自己的新技能？！）。尤其明顯的是，這次更新讓AI圖像生成更貼近商業實務需求，AI味似乎也沒那麼重啦。總之，我很看好本次更新，也迫不及待來更深入的測試一下它的能耐，期待一下後續更完整的實測吧。

DALL-E 3退場，GPT-4o圖像生成重大升級！可生成透明底圖AI素材庫時代來了嗎？

GPT-4o取代DALL-E 3來生成圖像，為何它能做到？

GPT-4o圖像生成新功能：不只透明背景素材，還看得懂品牌規範

1. 透明背景生成圖：

2. 可上傳品牌設計規範：

3. 影像編輯強化：

創作者與AI訓練數據：如何兼顧技術發展與版權保護？

關於作者

庭庭迴旋踢

GPT-4o取代DALL-E 3來生成圖像，為何它能做到？

GPT-4o圖像生成新功能：不只透明背景素材，還看得懂品牌規範

1. 透明背景生成圖：

2. 可上傳品牌設計規範：

3. 影像編輯強化：

創作者與AI訓練數據：如何兼顧技術發展與版權保護？

關於作者

庭庭迴旋踢

猜你喜歡