378. 繪圖AI的三種形式

章節報錯

【377是當選的內容肯定是出不來了，378前半部分和諧了，不能寫，我把後半部分放免費章節在這裡吧。】

不論大家的觀點如何離譜，對於AI領域的關注隨著大選節節攀升也是不爭的事實。

這種熱度在孟繁岐宣佈即將釋出真正的，能夠根據文字繪圖的人工智慧後，來到了一個新的巔峰。

因為接近半年之前，孟繁岐放出的試用版本Clip就已經展現了相當出色的繪圖能力和多模態理解能力。

好到大家都以為這東西是專門為了AI繪圖而研發的。

結果沒想到，僅僅只是加入了影象和文字之間的對應關係，模型就很快自發的擁有了如此之強的影象生成能力。

而且半年前就已經那麼驚人了，現在那還得了？

對於萬眾期待的AI繪圖，內部的研發其實並不順利，這點從釋出時間上就能夠看出。

孟繁岐也猶豫了相當一段時間，應該具體選擇怎樣的路線。

前世最為著名的AI影象生成器，主要是StableDiffusion，Midjourney和DALLE三個。

其中SD擴散模型是基於Clip的文字生成影象模型，它的方式是從有噪聲的情況開始，逐漸改善影象，直到完全沒有噪聲，逐步接近所提供的文字描述。

它的訓練方式也已經經過了多次的研究打磨，先取樣一張圖片，並隨著時間的推移逐漸增加噪聲，直到資料無法被識別。隨後讓模型嘗試將影象回退到原始形式，在此過程中學習如何生成圖片或其他資料。

這種路線如其名字stable一樣，非常穩定，不過倘若想要生成非常高質量的影象，計算消耗非常之大。

技術上已經達成，但在成本上，似乎目前不是很適合投入市場。

前世的Midjourney則比較擅長各種藝術化的風格，生成的影象常有非常精美的結果。

隱姓埋名，一舉奪得繪畫大賽金獎的那副【太空歌劇院】便是Midjourney的作品。

按理來說，這個路線更具美感，既能夠起到震撼宣傳的效果，又能吸引大量使用者，應該是上上之選。

不過對比開源的擴散模型辦法，Midjourney使用的是公共平臺機器人來處理使用者的請求。

由於其封閉盈利的模式，孟繁岐對這款AI的具體技術細節知之甚少，也不清楚它最為核心的技術關鍵是什麼，因而只得放棄這條線路。

“如果從前世的知名度和受歡迎情況來看，擴散模型和Midjourney會更加穩定，不過DALLE在我重生前已經和ChatGPT進行了組合，有非常大的潛力，考慮到以後的發展情況的話我需要對兩者路線進行融合。”

正是因為需要集兩家之長處，孟繁岐的擴散繪圖AI才會比預期要晚了幾個月。

最終形成了一個比較成熟的壓縮、擴散、和隱空間再擴散三步走的系統。

這種整體做法的實驗、討論和最終確定，耗費的時間甚至比正式訓練還要久。

“也不知道量子計算機這種計算效能數量級提升的東西什麼時候能弄出來，如果算力夠快，其實能省事不少。”孟繁岐想起這件事情還是覺得疲倦。

之所以要拆分出這麼多模組，其中最大的原因就是計算資源消耗的問題。

影象的解析度是平方，T方法內的運算又有維度上平方的操作，使用者覺得256和512解析度的圖片差不多，可反應到全域性則往往會是一個數量級的提升。

為此，只得將擴散模型的學習步驟放到低緯度空間裡進行取樣。

說直白點，就是先把解析度搞低，從而極大地減少擴散前後步驟的計算量。

“這樣做會不會有損效能？使得生成的圖片效果不夠好？”決定釋出這版本算力上有所閹割的擴散模型，CloseAI內部也提出了這樣的擔憂。

畢竟演算法方面其實可以做得更好，雖然代價會大一些。

“這裡也不僅僅是計算時間的問題，同時也是視訊記憶體的問題。不做這種拆分和影象解析度的閹割，相同的一張卡不僅運算速度變慢一個數量級，能夠同時進行的任務也少了好幾倍。”孟繁岐堅持先解決使用者數量的問題，效能和效果可以慢慢去最佳化。

這就像是一個巨大的胖子來吃飯，不僅用餐時間是別人好幾倍，他一個人還能坐四個座位。

在孟繁岐看來，ControlNet提出之前，首先發布的繪圖AI也只是一個玩具。

其效能有所上下波動無傷大雅，因為早期優質出圖的成功率本來也不高，往往是需要大量測試後挑選一個能看的。

這主要是因為不管是文生圖還是圖生圖，在早期都缺乏一個特別好的控制手段。

“我們現在推出的這款擴散模型，具體的用法還是大量的文字輸入去控制影象的產出。但是文字想要清楚地描述一張具體的影象是非常困難的，即便大批次的嘗試加上大量的生成，未必就能得到自己想要的結果。”

“這種生成模式，也要用圖文結合的方式。我們還要找到具體的辦法，透過額外的條件新增來控制擴散模型的行為，告訴它什麼要調整，什麼不要調整。做到生成影象內容的儘量可控，要遠遠比影象似乎更加精美好看一點要更重要，優先順序更高。”

孟繁岐很清楚早期AI繪圖的最大問題，那就是生成影象像是在吟唱黑魔法。

為了得到一張心滿意足的圖片，很可能需要詠唱一百來個關鍵詞。

當時不少人都笑稱，玩AI繪圖搞得跟賽博邪教一樣，嘴裡嘟囔著一大堆別人似懂非懂的話。

甚至還有打包了大量優質圖片關鍵詞，直接拿去售賣的。