2013年的暑假,距離比賽開始時間還有大約一個月的時間。

“模型的訓練過程需要將所有的權重,資料和許多中間過程都放入GPU中進行處理。因而GPU的視訊記憶體大小格外重要。”孟繁岐嘆了口氣,“即便是我們購買的旗艦690,也太小了,只有4G大小。”

比起後來被美國禁止賣給華國的A100-80G,690不說其他效能,單視訊記憶體就少了20倍。孟繁岐如今只能可憐巴巴地每次使用16張圖片對模型進行迭代。

“一次十六張,一次迴圈要接近一百萬次才能更新完整個資料集。而想把模型收斂好,上百次迴圈又是少不了的。”

孟繁岐估算了一下,這個版本出一次結果要接近20天,最後的訓練過程確實大概消耗了三週左右以收斂到現在的這個效能。

好在IMAGENET在後來基本成為了每個演算法工程師必調參的練手資料集,孟繁岐自己就曾無數次刷榜,自然是輕車熟路,清楚各類引數的大概設定。

這為他至少節省了一兩個月的珍貴時間。

即便一次訓練需要三週之久,孟繁岐卻仍舊趕在比賽開始之前就已經準備好了一版模型。

看著訓練出來的模型最終效能達到了預期,孟繁岐心中的一塊大石總算落地了。

這幾個月來,他唯一擔心的一件事情就是多年前的老框架會出一些他意料之外的問題,導致最終的結果不能和理論預期吻合。

一旦這種事情發生,找到問題所在並測試解決的代價就太大了。倘若不能夠及時解決,會很大影響到他初期的規劃。

眼下的結果大約在4.9%的top-5錯誤率,這個版本比後世論文中的效能要稍差了一丁點,但好在仍舊強於賽事方給出的人類標準了。

一般來說,比賽前是不會公佈比賽所使用的具體資料的。只是IMAGENET比賽比較特殊,一千多萬量級的圖片,總不可能辦一兩次比賽就捨棄掉,不再使用。

因而每屆比賽所用的資料是變化很小的,只是具體賽道,所競爭的內容和評判的方式常會有所調整。

雖說IMAGENET休賽的時期其實也可以提交結果,孟繁岐現在就可以把這個結果上傳上去,奪取第一的位置,但關注度畢竟不可與賽時的激烈競爭同日而語。

與此同時,唐璜也終於開始意識到事情的走向已經遠遠偏離了他的預料。

“我記得之前查到AlexNet在這上面的準確率不到85吧,你現在這個已經特麼超過95了啊。”唐璜第一次來檢視結果的時候完全不敢相信這個事實。

“你確定沒搞錯?別忽悠兄弟啊。兄弟書讀的少,很容易被騙的。”唐璜此刻的心態很複雜,很希望這是真的,但由於事情實在顯得太美好,反而很難相信。

“是假的,我騙你的。”孟繁岐翻了個白眼,“我加了特技,裡面都是化學的成分。”

“不會吧,我親眼看這效能一路上收斂上來的。”唐璜又翻了翻模型訓練的日誌,聲音之中帶了三分委屈。他剛剛已經在腦補自己抱緊大腿,走上人生巔峰的場景了。

這就是患得患失的可憐人啊,不敢相信,卻又害怕是假的。

“雖然我沒有測試集的真實答案,但是我從訓練集裡劃了百分之5出來沒有使用,作為驗證的辦法。”孟繁岐對這個資料集的方差可以說是瞭然於胸,95%的資料用於訓練,5%的資料用於測試已經是相當穩妥而保守的比例了。

“也就是說,只要這百分之5的資料和測試集的資料差別不大,你的辦法可以比去年的冠軍強十個百分點?”唐璜仍舊還處於極度的震撼當中。“就這麼簡單?我還沒出力呢,你們就全趴下了?”

唐璜此時的感覺,就像是夜神月第一次發現原來可以直接指派死神去除掉自己最大的對手L一樣。想象中的努力,拼搏和奮鬥一樣都沒有發生,也完全沒有必要,驚人的成績和進展甚至在比賽正式開始之前就已經獲得。

“這就是人生。成功與失敗很多時候可能與你並無關係,習慣就好。”孟繁岐拍了拍他的肩膀,“這次不習慣也沒什麼,以後的道路還有很長很長,你會習慣的。”

因為不習慣也沒辦法,是吧。改變不了體重的人就只能改變審美。

否則會被自己折磨一輩子的。

既然在95%的資料上已經取得了這樣的結果,接下來要做的就是把餘下的5%也加入進去,繼續微調模型幾天。

如此一來,得出的最終結果就可以直接在11月份的時候做提交所用了。

在一個效能已經相當不錯的模型上繼續微調它的效能,就遠遠用不到21天那麼久的時間了。

只需兩天左右的時間,新的訓練日誌便顯示,模型的效能已經基本收斂到一個固定值,很少再繼續波動。

這樣的話,孟繁岐在前往澳大利亞會議現場之前,就只剩下唯一的一件事情要做,那就是補齊手頭這些論文的實驗資料。

將這些文章所缺的最後一塊拼圖填補上去。

截止此時,孟繁岐已經大約完成了接近7篇之多的文章。除了本次的參賽核心,基於殘差思想的新模型DreamNet,以及相關的訓練技巧,批歸一化,Adam二階最佳化器,和Mix-up資料增強之外。

孟繁岐還在三個其他方向上準備了開創性的工作,以佔坑三個關鍵的領域。

在參賽的相關內容中,其實只有殘差網路算得上是開創性的內容。餘下的三者,雖然是各自方向上的佳作,但是難以稱得上是某一細分領域的奠基之作。

寫論文去詳細描述,也只是迫於無奈,因為為了確保DreamNet的效能和訓練速度,孟繁岐不得已而使用了一些技巧。

為了確保這樣的重要結果業界可以復現,孟繁岐不得不詳細描述這些訓練技巧,於是便寫成論文。但若是有得選擇,其實並不急於一時。

而他真正希望搶佔先機去佈局的,一,是先前與付院長討論過原理的,生成式對抗網路。這是近些年來最具有前景也最優雅的無標籤學習方法,是以後所有生成類技術難以繞開的一個里程碑。

二,是基於新思想的實時檢測網路。這會使得在圖片上分辨物體並確定位置的速度和準確率大大提高。日後落地最廣的影象檢測技術,不論是人臉識別,自動駕駛還是工業內檢測。這些新技術都不得不提到這次提速的重要意義。

三,則是最簡潔好用的分割網路,U-Net。這將會是複雜分割任務的基準線,並且會制霸醫療影象領域。

孟繁岐選出這三類加上殘差網路,就涵蓋了分類,檢測,分割和生成四大領域。佔領了影象演算法的四大主要賽道。

之所以全選擇影象類的技術,也是為了顯得合理一些。至於語言類,語音類或者多種模態的融合演算法,他則計劃可以稍稍放緩些時日提出。