USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

USO 模型支援多種使用方式,提供極大的靈活性。您可以僅提供內容圖像,讓模型根據自然語言提示(例如「桌上的時鐘」、「海邊的女人」)生成具有主體驅動特性的影像,尤其在生成逼真的肖像方面表現卓越。 此外,USO也擅長風格編輯,能將影像轉換為吉卜力風格、像素藝術、復古漫畫或水彩畫風格,並支援保持佈局或改變佈局兩種模式。 如果您僅提供風格圖像,USO能夠參考輸入的風格,並根據您的提示生成任何內容,甚至支援多種風格參考(目前為Beta版)。 最令人興奮的是,USO 允許您同時提供內容圖像和風格圖像,將內容置於所需的風格之中,實現無縫的風格遷移。

為了實現這些強大的功能,USO模型採用了一套創新的訓練方法。首先,它構建了一個大規模的三重數據集,包含內容圖像、風格圖像及其對應的風格化內容圖像。其次,USO引入了一種解耦學習方案,透過風格對齊訓練和內容-風格解耦訓練兩個互補的目標,同步對齊風格特徵並將內容與風格解耦。最後,模型還整合了風格獎勵學習範式,進一步提升了其性能表現。

USO模型目前已開源,並支援1024×1024解析度的圖像生成。 許多使用者對其強大的功能讚不絕口,尤其是在處理主體/身份/風格及其組合的客製化方面,USO展現出領先的技術水平。 如果您對USO感興趣,建議您訪問其GitHub儲存庫,了解詳細的使用說明和更多範例,探索USO帶來的無限創意可能。

總結來說,USO模型代表了生成式AI領域的一個重大進步,它成功地將風格驅動與主體驅動生成融為一體,為創作者提供了前所未有的自由度。無論是專業設計師還是AI藝術愛好者,USO都將成為您提升創意、實現視覺想像的強大工具。

Categories: 字節跳動, 開源, 影像模型, 影像處理