share_log

不玩“期货”的快手接棒Stability AI,国产之光可图大模型Kolors领跑开源生态

不玩“期貨”的快手接棒Stability AI,國產之光可圖大模型Kolors領跑開源生態

品玩 ·  07/11 22:06

這應該是國內用戶能直接體驗到的最強的文生圖大模型。

最近,快手打造的文生圖大模型——可圖(Kolors),正式宣佈開源,迅速掀起一股旋風。這位才華橫溢的“藝術家”,不但善於繪製萬物,而且深諳中國文化精髓,不僅善“畫” 而且能“書” ,寫起漢字來也毫無壓力。評測視頻、教學指南、創意分享……社交媒體上,圍繞可圖的話題如火燎原。

據了解,可圖(Kolors)的生成效果已經超越了現有的開源模型如SD3,並達到了與閉源商業模型Midjourney-v6相當的水平。可圖(Kolors)具有強大的複雜語義理解能力,畫質達到了攝影級別的質感,並且支持英文和中文漢字的生成。這樣強大的模型還是開源的,能不令人心動嗎?

在AI大熱的當下,快手選擇了一條低調務實的道路。在近期舉行的世界人工智能大會(WAIC)上,快手的大模型家族首次集體亮相,並宣佈可圖(Kolors)正式開源,引發了轟動。

可圖(Kolors)的這次開源包括了模型權重、完整代碼和技術報告,內容非常全面,目前已在Huggingface平台和GitHub上線。供個人開發者免費使用,獲得登記許可即可商用。

開源短短几天之後,可圖(Kolors)已經在Github收穫2k stars。

同時,可圖(Kolors)在Huggingface也登上了模型Trending榜首,截至發稿前已下載上萬次。

這也展示了開源社區對可圖(Kolors)的熱烈反響。許多開發者在實際測試和體驗了可圖(Kolors)的生成效果後,給予了極高的評價。

在X平台,來自Stability AI和Huggingface等企業的開發者第一時間測試、宣傳、點贊可圖(Kolors)。

同時也吸引了許多自發宣傳和改進可圖(Kolors)的專業用戶。

可圖(Kolors)的開源之所以能獲得如此多的關注,離不開其頂級的性能表現。在智源FlagEval文生圖模型第三方評測榜單中,可圖(Kolors)以主觀綜合評分75.23分的成績,排名全球第二,僅次於閉源的DALL-E 3。特別值得一提的是,在主觀圖像質量方面,可圖(Kolors)表現尤爲突出,評分排名第一,顯著優於其他開源和閉源模型。

在50位人類圖像專家評估中,可圖(Kolors)也表現出色,超越了一衆開源模型,與Midjourney-v6性能相當,並且在視覺吸引力方面顯著領先。

架構方面,根據官方技術報告,可圖(Kolors)使用了隱空間擴散模型,並創新地使用了大語言模型進行文本表徵。這使得可圖(Kolors)具備了複雜長文本理解能力。更長的文本提示詞允許包含更多的細節和上下文信息,從而使模型能夠更準確地理解和生成圖像內容,並且可圖(Kolors)支持中英文文字生成。此外,可圖(Kolors)通過採用兩階段漸進訓練策略(概念學習和美感提升),在圖像美感和質量上達到了國際領先水平。

強大的複雜文本理解能力

可圖(Kolors)使用大語言模型進行文本表徵,同時構建了精細化圖像文本描述數據集,在複雜文本理解能力上取得了顯著突破。從下圖中我們可以看到,可圖(Kolors)能夠正確繪製中國女性形象的所有元素和細節,從黑色皮夾克、時尚太陽鏡到鮮豔的紅裙和醒目的口紅,無一遺漏。在文生圖模型常見的顏色混淆難題上,可圖(Kolors)也表現優異。即便面對多個主體和繁複的色彩描述,模型依然能夠準確無誤地進行繪製,將文字描述轉化爲視覺呈現。

作爲一款國產的文生圖大模型,可圖(Kolors)在理解和呈現中國特色元素方面表現得尤爲出色。如下圖所展示的,無論是北京奧運會的標誌性建築“鳥巢”、上海現代化都市風貌的代表“外灘”、彰顯古代建築智慧的“天壇”,還是中華文明的象徵“長城”,可圖(Kolors)都能以很高準確度和細膩度進行再現。

支持生成中文文字

可圖(Kolors)的一大技術亮點是支持中文漢字生成。雖然,DALL-E 3和SD3支持英文文字生成,但可圖(Kolors)是第一個原生支持中文文字生成的文生圖模型。

根據硅星人的實測,可圖(Kolors)生成中文文字的效果已經相當驚豔。不僅能夠準確繪製不太常見漢字(如:硅),也支持中英文同時繪製,且文字與背景之間的貼合感弱。

面對SD3宣傳中的高難度複雜提示,可圖(Kolors)依然不在話下。模型能夠精準捕捉並呈現提示中的各種複雜屬性,包括具體數量、精確位置、豐富色彩、英文字母、中文漢字,以及數字概念。

在大語言模型的加持下,可圖(Kolors)彷彿擁有一個能夠深入解析人類語言的“大腦”,能夠迅速理解並準確執行各種複雜的視覺創作指令。這再次印證了可圖(Kolors)強大的複雜語義理解能力。

攝影級的畫質質感

可圖(Kolors)能夠生成具有攝影級畫面質感的圖像,這一效果得益於海量訓練數據的支持,以及訓練策略的優化。

具體來看,可圖(Kolors)訓練分爲兩個階段:概念學習和質量微調。首先,可圖(Kolors)從大規模圖像-文本對中學習各種知識。接下來,團隊使用高質量、高美感的數據對模型進行微調,以提升圖像的精細度和美感。同時,可圖(Kolors)引入了一種新的加噪策略,使其在高分辨率圖像的處理上表現更好。這一系列優化顯著提升了模型生成圖像的質量和視覺效果,讓可圖(Kolors)生成的圖片具備攝影級的畫質質感。

深入業務場景

憑藉其卓越的模型能力,可圖(Kolors)的開源引發了全球社區廣泛關注。而實際上,可圖的文生圖能力已經應用到快手的多個下游業務中。

例如在非真人IP形象定製中,用戶可以根據具體需求生成獨特的非真人IP形象,這些形象不僅具有高度的視覺吸引力,還能根據用戶的指令進行個性化調整和優化。這一應用不僅提升了內容創作的效率和質量,還爲品牌和個人IP的打造提供了新的可能性。

可圖(Kolors)通過人像ID保持功能,能夠在生成圖像時保持用戶的獨特面部特徵,同時支持多種風格化人像的生成。用戶可以在不同風格的虛擬形象中自由切換,例如卡通風、油畫風、賽博朋克風等,不僅滿足了用戶多樣化和個性化的表達需求,還可以衍生出諸如多風格合成、誇張表情定製、寫真定製等趣味玩法。

藉助可圖(Kolors)的能力,用戶可以在虛擬環境中試穿不同的服裝和配飾,實時查看效果。這一功能不僅提升了用戶的購物體驗,還大大增加了商品的展示效果和吸引力。商家能夠根據用戶的個性化需求,自動生成多樣化的商品圖片和展示素材,從而更精準地進行市場營銷,真正實現千人千面的商品素材生成。

SD之後,可圖(Kolors)扛起開源大旗

近段時間,開源社區的明星公司Stability AI經歷了劇烈動盪。Stability創始人兼CEO Emad Mostaque於3月辭職,高層及核心技術人員相繼離職,甚至公司傳出尋求“賣身”的消息,使得業內人士擔憂這可能是Stability AI的最後一舞。然而,在開源社區遭遇如此重創的時期,快手選擇將可圖(Kolors)開源,也因此成爲了業界關注的新焦點。

快手此次開源的可圖(Kolors),不僅在效果上超越了開源的Stable Diffusion 3,還同時支持中英雙語生成,並且支持中英文文字繪製,出圖質量達到國際領先水平,比肩閉源商用模型。與此同時,快手也展示了對開源技術的堅定承諾,計劃陸續開源可圖(Kolors)的相關應用組件,如ControlNet、LORA、IP-Adapter等,以豐富其開源生態。

同時,我們也欣喜的觀察到,已經有不少開發者開始實現基於可圖(Kolors)的相關應用。相信在開源社區的共同努力下,可圖(Kolors)的開源生態會越來越完善。

總體來看,可圖(Kolors)開源展示了快手在AI技術領域的開放態度和技術能力。快手希望通過開源來推動文生圖大模型社區的發展,爲企業與開發者提供強大的工具來開發自己的應用和產品。未來,隨着越來越多的企業和開發者開始使用可圖(Kolors),我們也可以期待整個文生圖大模型社區將迎來新的發展契機。

在當今AI大潮洶湧的時代,前沿技術的光環耀眼又令人迷惑,吸引着無數企業投身其中,一方面熱情高漲,另一方面又顯露出急於求成。無論是大語言模型還是生成式AI,技術的最終價值都在於它如何改善人類的生活和工作方式。只有那些能夠在喧囂中保持清醒,始終聚焦於解決實際問題的公司,才有可能在下一個時代站住腳跟。

快手在AI大模型領域展現出低調、高標準和開放的態度。他們不搞期貨,也不玩花活。可圖(Kolors)這樣的模型正在真實地滿足用戶需求和商業轉化,並通過開源的方式回饋社區。

縱觀整個互聯網行業的發展歷程,每一次技術革新都與內容形態的演進緊密相連,當生成式AI和推薦算法更加緊密的結合,短視頻平台與AI大模型的結合將成爲下一個重大的技術融合方向。可圖(Kolors)的開源和落地,已經讓我們看到了這種預兆,接下來就看快手能否抓住這個創造革命的機會了。

One more thing

目前可圖大模型的各項功能已經集成至可靈AI中,普通用戶可以直接通過可靈AI官方網站和可圖大模型微信小程序免費使用各項功能。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論