一般來說,比較成熟的競賽榜單分為兩種,一種是公共榜單,一種是最後的私有榜單。

對應的資料也不相同,分為驗證集和測試集。

這兩部分資料的真實答案都不會公佈出去,但在參賽者提交結果之後,公共榜單隻會公佈驗證集部分的結果供大家參考,而不會公佈最終測試集上的結果和內容。

這是因為實時的榜單排名只是為了幫助大家理解自己的演算法大概在什麼水平,和最強的演算法差了多少。雖然沒有直接提供答案,但是如果參賽者調整設定反覆提交結果,還是可以一定程度上分析到這部分資料的內容和分佈的。

故而,這部分資料只做參考之用,最終決定排名的只有測試集的那部分。因此賽事的公共榜單隻能一定程度上反應問題,沒法百分之百地表示最終的名次。

“雖說有的賽時榜單根本不用於最後的排名,但人們卻很容易被這種榜單的魔力所吸引。”孟繁岐想起後世和唐璜參加過兩次小型比賽,不知道為什麼整天就想盯著那個榜單使勁看。

自己的提交成績高了一名,低了一名都會引起心情的巨大波動。

“什麼行業都是這樣的,你看什麼小說行業,影視劇行業,明星行業。創造焦慮嘛。”唐璜不以為然,“沒有焦慮就搞個榜單創造焦慮,人人都想當人上人,這榜單一出啊,就像是平靜的水池裡灑進了一把魚餌。原本翻著肚皮不動彈的魚就全活絡起來了。”

“體育圈也是,最愛說誰是GOAT(歷史最強),什麼詹姆斯PK科比,梅西對戰C羅。”唐璜繼續吐槽道,體育圈現在飽受這種風氣所害,馬上都快變成飯圈了,“統計的資料也越來越多越來越離譜,以前就統計一個進球,現在連哪個部位進的球也統計,我前幾天還看到有人說C羅的弟弟進了一個球。”

孟繁岐在檢視提交結果的資訊,乍一聽愣了一下,“C羅還有弟弟呢?”

仔細一想才回過味來,搞了半天是二弟。

其實11月11號,提交網站就已經被公佈出來了,這一年的提交視窗期很短,也不像後來的很多競賽那樣分驗證集,在賽時開放公共榜單提交。

11月13號,結果的提交就會截止。

不知不覺又是四五十天過去,孟繁岐反覆打磨了幾遍這幾篇論文。

不僅如此,等到後來他發覺論文裡的實驗已經跑完,便將檢測演算法接在了已經訓練了很久的分類模型上,又跑起了檢測賽事的資料。

檢測任務是分類任務的進階,在你的程式分辨出這張圖片的類別之後,更進一步的操作就是用矩形框把該物體的位置在圖片中位置給圈出來。也就是後來大家熟悉的人臉上的框框。

再進一步就是分割了,不採用矩形框這樣大的,規則的圖形,而是畫素級別地把某個物體的細緻輪廓在圖片上表示出來,也就是一種類似自動摳圖的操作。

當然了,不論是檢測還是分割,都是需要人工去標註訓練集的原始答案的。

IMAGENET-2013的檢測賽道資料集不算太大,一共接近40萬張圖片,共區分200類。這種進階型別的資料,標註起來要辛苦很多,因此資料量和分類不可同日而語。

不過,相比2012年的5717張,區區一年的時間,已經是百倍的巨大飛躍了。

“沒想到時間竟然會這麼多。”孟繁岐記得這時候的檢測大多數還是基於傳統HOG,LBP的辦法,在13年的這個資料集上mAP最高也就0.225左右。

自己既然來得及完成論文上的實驗,自然要抽空去降維打擊一下這些老古董方法。

每個參賽隊伍在各任務上有三次提交的機會,孟繁岐只需要一次就夠了。

參與競賽的隊伍往往會訓練好幾個版本的模型,然後做一些排列組合的整合,分多次提交,以確保自己的結果不會被一些不穩定的因素影響。

這也是追求更高效能的一種辦法,因為誰也無法保證自己的哪一次結果在位置的資料上效能最好。

有時候第一名和第二名,就差在毫釐之間,可能只是小數點後的兩三位。

只是孟繁岐完全沒有這個必要這麼做。

餘下的時間也來不及再做什麼,孟繁岐本想11號就早早把結果提交,多一事不如少一事。

但唐璜卻阻攔他,說英雄總要最後一步到場,才顯得特別戲劇化。

“這提交也不是實時顯示的,而是14號統一公佈結果。”孟繁岐指出了這麼一個尷尬的問題。

“額..”唐璜只得強撐著解釋道,“雖然其他人看不到,但主辦方不是看得到嘛。在最後關頭,給他們一點小小的中國震撼!”

-------------------

大洋彼岸,斯坦福大學的AI實驗室SAIL成立於1963年首次神經網路的浪潮中。見證了AI的兩次熱潮和兩次衰退。

如今,它由青年華裔科學家,IMAGENET的組織者李飛飛指導。

李飛飛09年開啟IMAGENET專案時還在普林斯頓,她後來來到了斯坦福,升任終生教授,並於今年開始領導斯坦福的AI實驗室。

接手這麼一個有歷史的實驗室不是一件容易的事情,再加上今年的IMAGENET競賽剛剛結束,李飛飛此刻相當的忙碌。

她昨天看了一眼新一年的成績,意料之中。

今年沒有看到什麼特別開創性的論文,大家基本上還處於對AlexNet的學習,和新賽道的摸索當中。

深度神經網路去年一枝獨秀,力壓群雄,但誰又能百分百的肯定這就是正確的道路呢?

即便是表現最好的模型也仍舊有11個點以上的Top-5錯誤率,而且通常來說,這個結果還可能是多個網路整合預測的,只是刷榜好用,這種方式並不具備實際的應用價值。李飛飛並不希望自己一手打造的IMAGENET成為刷子樂園。

路漫漫其修遠兮。

就在此時,自己的電話突然響起,李飛飛拿起手機看了一眼,是鄧嘉。

“Holyshit,老師你快看賽事的驗證結果。”

鄧嘉的聲音聽起來非常激動,一上來就飈了一句shit。

“結果?什麼結果。”李飛飛還不知道發生了什麼事情,她昨天已經看過榜單了,大家的水平都差不多,今天又能統計出什麼東西來?

眼下重新去鏈伺服器不大方便,李飛飛便說“你直接截個圖發我吧。”

“嘟...”

那邊直接掛了,李飛飛微微顰眉,這小子今天是怎麼了,平時不是這麼毛毛躁躁的。

很快,兩張圖片傳了過來。

李飛飛依次點開,霎時間,瞳孔微微放大,呼吸也不自覺地突然急促了起來。

只見兩個榜單最上面的一行都是同一個隊伍。

隊名:Dream。

提交描述只有一個字母不同:“AsingleDreamNet.”和“AsingleDreamDet.”

在一群整合了多個模型的提交中,single(單個的)一詞顯得格外惹眼。