亚洲一区av在线,亚洲JIZZJIZZ少妇,国产一区日韩二区欧美三区

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

文 | 白鹡鸰 and 小軼祝大家新年快樂！

去年白鹡鸰花了兩個月，刷了八千篇Arxiv，結(jié)果發(fā)現(xiàn)很多論文存在一些比較“基本”的常見問題：

研究問題和問題假設(shè)存在嚴重的漏洞，或者缺少充分的相關(guān)工作調(diào)研，導(dǎo)致所謂的新問題只是新瓶裝舊酒。
模型的選擇與想解決的問題牛頭不對馬嘴。
實驗設(shè)計錯誤，并沒有針對所聲稱的模型優(yōu)勢來進行實驗設(shè)計（還試圖用不合理的實驗分析去強行圓回來）。比如，一篇論文號稱自己可解釋性強，卻拿著精度當(dāng)指標。

以上本應(yīng)是研究的基本要求，只有滿足了這些條件才能再去討論一份工作是否有所創(chuàng)新，有所貢獻。但現(xiàn)在不少論文都本末倒置了。很多人在科研的過程中，一些最基本的科研要求往往被忽視，更多關(guān)注的反倒是“創(chuàng)新”（novelty）和“貢獻”（contribution）之類更高層次的要求。殊不知，后者必須建立在前者的基礎(chǔ)上。否則，所謂的創(chuàng)新與貢獻恐怕只是水中撈月的假象——

“創(chuàng)新性”被替換為“方法夠不夠花哨復(fù)雜”。為了這虛假的 “創(chuàng)新”，模型被強行塞入無效模塊，或是添上意義不大的技巧。

“貢獻度”被替換為“有沒有刷到 SOTA”。但 SOTA 有時候也并不能代表全部：或許模型并沒有掌握任務(wù)所必須具備的能力，只是過擬合了特定的數(shù)據(jù)集；或許模型的性能提升不是論文提出的核心方法帶來的，而只是某個一筆帶過的技巧、或者是不公平的比較方式導(dǎo)致的。

Severus 曾在往期推文中談過他對“算法崗”的理解。其中一些觀點與我們這里想說的不謀而合。他認為很多畢業(yè)生剛進入工業(yè)界時，最大的短板是缺少扎實地分析問題的能力，導(dǎo)致方法難以落地。并且吐槽了科研界很多 idea 的形成過程只是“靈光一現(xiàn)”，評價方式則“唯指標論”。其實，做科研何嘗不需要扎實的分析能力？不止需要，而且是基本技能之一。只是，忽視這些基本要求，不知從什么時候開始已經(jīng)成為主流了。

這就像一個歌手，唱歌“是否音準”本應(yīng)是基本要求，“有沒有流傳度高的音樂作品”是較高層次的要求。而現(xiàn)在卻變成了：基本要求被忽視，高級要求則被“粉絲多少/身價高低”取代。

1 科研誤解的流行從何而來？

那么，為何會存在這么普遍的科研誤解，以致于工業(yè)界的大佬會認為：只經(jīng)歷過科研訓(xùn)練的畢業(yè)生，往往連最基本問題分析能力都沒有？大抵可以歸為這樣兩個原因：

其一， “基本”要求≠“簡單”的要求。雖然“扎實的問題分析、相關(guān)工作調(diào)研充分、解決方法合理、實驗設(shè)計有針對性”是一篇工作的基本要求，但并不代表這些要求是容易達成的。就像“音準”等等是一個歌手的基本要求，但好的唱功又談何容易。即使已經(jīng)具備一定歌唱實力，也難免會有失誤的時候。同理，扎實的科研基本功豈是朝夕可得。

其二，研究的思維誤區(qū)和思維慣性、知識的局限性息息相關(guān)，不能一勞永逸地避免。無論是小軼還是白鹡鸰，在剛?cè)腴T科研的時候，文章開頭所提到的坑基本全都踩了個遍。只是有幸碰到了好的引導(dǎo)者，而且經(jīng)驗不斷積累，才逐漸能夠有意識地去規(guī)避這些問題。但是，在某個思維松懈的瞬間，或是出于無法避免的知識局限性，哪怕是已經(jīng)有一定經(jīng)驗的研究者，仍然可能再次踏入陷阱。

如果身邊能有一位有經(jīng)驗的前輩在科研進程中定期討論，避免踩坑的概率會大大降低一些，也會更快地對科研形成正確認識。這位前輩倒也不必事事躬親地教，只需幫助識別出一些常見的坑，發(fā)出“別跳”的警告即可。遺憾的是，在近年來全民 AI 的趨勢下，許多入門科研的年輕人并沒有條件得到這樣的指導(dǎo)，只能摸黑前進。投入了大量時間、精力，甚至犧牲健康才完成的工作，卻因為從根本上就存在漏洞，使得一切努力都成了泡影。到最后，可能都還沒對科研形成最基本的正確認識，就帶著誤解畢業(yè)了。

有的工作不能夠達到某些基本科研要求，或許是作者的無心之失。但也不否認有一些工作是在有意識地粗制濫造，將存在問題的工作加以包裝，以次充好。模型上堆疊各式各樣模塊，把各種當(dāng)下熱點技術(shù)都沾了點邊。然后煞費苦心調(diào)出實驗結(jié)果。最后再胡謅個似是而非的 motivation，補齊相關(guān)工作。面對這類工作，也許有經(jīng)驗的審稿人很容易就能發(fā)現(xiàn)問題。但若是遇到個經(jīng)驗不足的審稿人，很可能就打出了高分。畢竟這樣的論文經(jīng)過一番包裝，確實金玉其外。再加上這樣的工作制造成本低廉，大可以多做幾份，搞“海投戰(zhàn)術(shù)”——只要分母夠大，總有能中的。這種行為的流行將戕害到整個 AI 行業(yè)。隨著海投的水文越來越多，審稿需求就越來越大。審稿人的平均水準也相應(yīng)越來越低，于是漏網(wǎng)之魚的錄用水文也越來越多。從此進入惡性循環(huán)。

2 如何避免科研誤區(qū)？

科研誤區(qū)可能是無心之失，或刻意而為。后者牽扯到太多利益糾葛，不多加討論。但對于還對科研帶有熱情，有心做出有價值的工作的同行，我們在此想分享一份機器學(xué)習(xí)避坑指南，互相提醒，互相勉勵。

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

Warning：下文一半是搬運，一半是個人理解。感興趣的朋友還請移步原文。

論文題目:

How to Avoid Machine Learning Pitfalls: A Guide for Academic Researchers

論文鏈接:

http://arxiv.org/abs/2108.02497

原作者熱烈歡迎大家一起補充完善這份指南。

3 建模前需要做的準備

1. 花點時間了解你的數(shù)據(jù)

當(dāng)你的數(shù)據(jù)來源可靠時，你訓(xùn)練的模型才可能可信。在使用來自網(wǎng)絡(luò)的數(shù)據(jù)時，稍微看一眼，數(shù)據(jù)是哪里來的？有沒有對應(yīng)的文章或文檔說明？如果有說明，多看幾眼數(shù)據(jù)的采集方法，檢查一下作者有沒有提及數(shù)據(jù)的局限性（可能沒有，所以還要自己多想想）。不要因為一個數(shù)據(jù)集被很多文章采用了，就假設(shè)它是可信的。即使是標桿級別的數(shù)據(jù)集，數(shù)據(jù)也可能沒經(jīng)過仔細篩選（請參見《Google掀桌了，GLUE基準的時代終于過去了？》）。而不靠譜的數(shù)據(jù)，只會導(dǎo)致 garbage in，garbage out。所以，在開始跑實驗之前，先好好地探索一下你的數(shù)據(jù)吧！在工作開始的時候就對數(shù)據(jù)有一個整體把控，總比最后再不得不向?qū)徃迦私忉屇愕哪Ｐ捅憩F(xiàn)是受到了垃圾數(shù)據(jù)影響要好。

2. 不要過度地分析數(shù)據(jù)

當(dāng)你對數(shù)據(jù)集有一定了解之后，可能會發(fā)現(xiàn)一些肉眼可見的規(guī)律。但是，千萬不要基于初步的數(shù)據(jù)分析作出任何沒經(jīng)過檢驗的假設(shè)！提出假設(shè)本身沒有錯，重點是避免“沒經(jīng)過檢驗”的假設(shè)，一方面是因為數(shù)據(jù)集都會帶有偏差，你無法確定你發(fā)現(xiàn)的規(guī)律是不是基于特定的偏差的；另一方面，在沒有區(qū)分訓(xùn)練和測試數(shù)據(jù)前就基于數(shù)據(jù)開始大膽猜測（帶入先驗知識），這其實也是測試數(shù)據(jù)泄漏到訓(xùn)練過程的一種形式?？傊?，輕率地提出假設(shè)對于模型的可靠性百害無一利，如果你發(fā)現(xiàn)之前很多論文都用了相同的假設(shè)，也請謹慎確定這個假設(shè)適用于你的數(shù)據(jù)。假如你發(fā)現(xiàn)這個領(lǐng)域長期公認的假設(shè)其實是不合理的——嗨呀，送上門的文章快寫吧。

3. 確保你擁有足夠的數(shù)據(jù)

這其實不止是對數(shù)據(jù)的要求，也要求你要對自己的模型有一定的了解：到底需要多少數(shù)據(jù)，才能保證你的模型的泛化性？此外，數(shù)據(jù)的“量”是否充足，和數(shù)據(jù)的“質(zhì)”有一定的關(guān)聯(lián)。如果數(shù)據(jù)中噪聲太大，那即使量夠大，也不一定能獲得很好的模型訓(xùn)練效果。而如果數(shù)據(jù)類與類不均衡，模型的泛化性也會受到影響。如果數(shù)據(jù)因各式各樣的原因不夠充足，你可以考慮交叉驗證、數(shù)據(jù)增強、均衡訓(xùn)練等操作，如果數(shù)據(jù)無論怎樣操作都不足以支撐你的模型，那就趁早換個復(fù)雜度低一點的模型吧。

4. 和領(lǐng)域內(nèi)的專家保持交流

領(lǐng)域內(nèi)專家的意見是很重要的（特別是你的導(dǎo)師）?；谪S富的經(jīng)驗，他們能更好地估計研究的可行性和研究價值；對于研究結(jié)果的預(yù)期可能會更準確，因此當(dāng)你誤入歧途時，更可能及時地指出；而對于你的成果面向的受眾也會更了解，能幫助你選擇論文投稿的正確的期刊。因此，多和前輩們交流。記住，前輩不限于你的導(dǎo)師，院系內(nèi)類似工作的老師、學(xué)長學(xué)姐都是可以請教的對象。多交流還能防自閉！

5. 好好做文獻調(diào)研！好好做文獻調(diào)研！

重復(fù)一遍是因為小軼覺得這點簡直是坑中之坑！需要鞭策自己！

當(dāng)你想到一個研究問題的時候，你很可能不是第一個想到的。如果你沒找到相關(guān)的研究，可能只是因為他人描述問題的形式和你不盡相同，更糟糕的是可能是因為你的問題根本不具備研究價值。無論哪種情況，都是由于文獻調(diào)研還不夠充分導(dǎo)致的。需要多讀論文，然后通過交流討論，確定這個研究問題能不能做下去。不要擔(dān)心那些和你研究同一個問題的論文：創(chuàng)新性可以來自很多方面，新方法，新結(jié)論，新應(yīng)用點，世界這么大，只要你會講故事，沒那么多論文能和你完全一樣（真一樣的話就說明是有緣人，發(fā)郵件交個朋友去吧）。前人的工作將為你提供很多寶貴的結(jié)論、經(jīng)驗、教訓(xùn)，也必然存在不完善的地方，沿著前人的不足做下去就好了。

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

6. 考慮好要如何部署模型

“你為什么一定要用深度學(xué)習(xí)模型？傳統(tǒng)方法它不香嗎？”這是每一篇應(yīng)用機器學(xué)習(xí)模型的論文必須回答的問題。

目前，有很大一部分的機器學(xué)習(xí)模型并不具有實用價值，它們只代表了建模和數(shù)據(jù)分析的發(fā)展方向。如果只是運用機器學(xué)習(xí)模型，一定要注意模型的適用范圍（實時性、計算力等），還要對如何魔改模型的輸入輸出心里有數(shù)?！耙驗闆]人把機器學(xué)習(xí)用在我的領(lǐng)域，所以我把模型套過來跑一跑”的行為早就飽受詬病了（詳見《近期神奇機器學(xué)習(xí)應(yīng)用大賞》）。

4 如何建立可靠的模型

1. 不要混淆訓(xùn)練和測試數(shù)據(jù)！

要使用能證明模型泛化性的測試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合，只有在一個盡可能貼近實際場景的測試集中表現(xiàn)過關(guān)，才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的，但測試集中數(shù)據(jù)必須包括各式各樣的情況。而且測試集和訓(xùn)練集絕對不能有重合。

2. 多嘗試幾個模型

根據(jù) No Free Lunch 理論，任何的機器學(xué)習(xí)方法都不可能在所有領(lǐng)域表現(xiàn)最好。所以，當(dāng)你將機器學(xué)習(xí)引入自己的領(lǐng)域的時候，多試幾個模型，確保你用的是最合適的那一個，當(dāng)然，也可能沒有一個適合你：）

3. 不要使用不合適的模型

由于現(xiàn)在機器學(xué)習(xí)的庫太多了，生搬硬套的現(xiàn)象也越來越普遍。搞不清模型輸入輸出，只想用新興神經(jīng)網(wǎng)絡(luò)炮轟一切問題的，看到個新模型就想拿來用的，是不是聽起來就要血壓升高？

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

4. 好好調(diào)參！好好調(diào)參！

重復(fù)一遍是因為白鹡鸰特別懶不喜歡調(diào)參需要鞭策自己

很多模型中都有超參數(shù)，它們對模型的表現(xiàn)影響重大，而不同的領(lǐng)域/數(shù)據(jù)集對超參數(shù)的要求又各有不同。所以，即使是懶，也必須采用一些自動化方法來調(diào)參，比如網(wǎng)格搜索，簡單粗暴，我的摯愛。如果模型很大，訓(xùn)練成本高昂，甚至可以利用一些工具包幫忙調(diào)參。

需要指出的是，盡管經(jīng)常會聽到一些關(guān)于調(diào)參的詬?。愃朴凇斑@篇論文效果好完全是靠調(diào)參！”的抱怨），但是調(diào)參是有其必要性的。應(yīng)該避免的是不規(guī)范的調(diào)參和不公平的實驗比較方式。比如，不能用測試集數(shù)據(jù)調(diào)參；以及，不能僅對自己提出的模型瘋狂調(diào)參，而應(yīng)對所有使用中的模型都進行同等程度的調(diào)參方式等等。

5. 注意調(diào)參和選擇特征的階段

超參數(shù)調(diào)整和特征選擇都應(yīng)當(dāng)是訓(xùn)練的一部分，而不是說訓(xùn)練之前運行一次就以為萬事大吉。特別是特征選擇，如果對整個數(shù)據(jù)集統(tǒng)一進行特征選擇，很可能又會把測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中包含的知識混在一起，導(dǎo)致測試結(jié)果不可靠，因此，最好只對你訓(xùn)練用的那一部分數(shù)據(jù)進行調(diào)參和特征選擇。一種推薦的方法是嵌套交叉驗證，這種方法在交叉驗證外面再套了一圈驗證，用來測試不同超參數(shù)和特征選擇對模型的影響。

5 如何合理地評估模型

1. 選擇合適的測試集

能夠證明模型泛化性才是好的測試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合，只有在一個盡可能貼近實際場景的測試集中表現(xiàn)過關(guān)，才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的，但測試集中數(shù)據(jù)必須包括各式各樣的情況。而且測試集和訓(xùn)練集絕對不能有重合。

2. 驗證集是有必要的

在剛開始做機器學(xué)習(xí)的時候，我對于驗證集的概念不甚清楚，也不明白為什么要掐出來那么多數(shù)據(jù)當(dāng)驗證集（甚至有人告訴過我驗證集可有可無，謝謝您嘞?。?。驗證集主要是用在訓(xùn)練過程中，用來對比多個模型的表現(xiàn)的。當(dāng)你需要同時訓(xùn)練好幾個超參數(shù)設(shè)置不一樣的模型時，幫助挑選這些模型的就是驗證集。雖然測試集沒有直接參與模型的訓(xùn)練，但它指導(dǎo)了訓(xùn)練的方向。驗證集就是訓(xùn)練和測試之間的緩沖地帶，保證了模型的訓(xùn)練集和測試集沒有任何重疊。驗證集的另一個好處就是，你可以用它來檢查你的模型是否真的學(xué)到了數(shù)據(jù)的規(guī)律，見勢不妙時可以趁早停下；如果模型在驗證集中表現(xiàn)先升后降，很可能是模型過擬合的標志。

3. 一個模型多驗證幾次

機器學(xué)習(xí)的模型能有多不穩(wěn)定，我相信所有用過GAN和RL的人都有話要說，隨機采樣訓(xùn)練樣本的情況下，模型能往各種神奇的方向發(fā)展，收斂到各式各樣的局部最優(yōu)。這就是為什么我們需要交叉驗證法，它能盡可能地保證模型訓(xùn)練效果，一定程度上防止過擬合。需要注意的是，如果數(shù)據(jù)集中存在類別不均衡的問題，最好保證每個驗證組中都能包含所有類別。在交叉驗證的過程中，強烈推薦大家記錄每輪中測試的均值和方差，在比較模型表現(xiàn)時這些數(shù)據(jù)會起到重要作用。

4. 留點數(shù)據(jù)用于最終驗證

在訓(xùn)練過程中，交叉驗證可以很大程度上保證一類模型的訓(xùn)練效果的穩(wěn)定性，但是，對于訓(xùn)練中的每個模型個體，這樣的驗證還不夠充分，因為每組交叉驗證的子集中數(shù)據(jù)量往往都不大，不一定具有泛化性，說不定，表現(xiàn)最好的模型只是恰好遇到了最簡單的驗證子集。因此，如果你的數(shù)據(jù)還算充裕，最好能留一部分數(shù)據(jù)，在訓(xùn)練結(jié)束之后再無偏驗證一下模型們的表現(xiàn)。

5. 數(shù)據(jù)不均衡的時候，精度是沒有意義的

數(shù)據(jù)采集不均衡的情況很常見。例如，很多的自動駕駛的數(shù)據(jù)集中，行人、自行車、卡車的數(shù)量加起來還沒有小轎車多。這種情況下，用模型對交通參與物分類的精度作為衡量模型表現(xiàn)的標準，恐怕意義不大。這種情況下，應(yīng)當(dāng)先對不同類別樣本的分類精度進行一致性檢驗，或者采用一些適用于不均衡數(shù)據(jù)的評估指標，例如Kappa系數(shù)，Matthews相關(guān)系數(shù)等。

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

6 如何公平地比較模型

1. 不要以為分高了模型就好

這真是非常常見的問題：“XX模型精度94%，我們的模型精度95%，所以我們nb”。然而，可能存在幾種可能性：兩個模型是在不同的數(shù)據(jù)集上測試的（直接斃了吧）；兩個模型用的同一個數(shù)據(jù)集，但是訓(xùn)練和測試集劃分并不一樣，特別有些論文，直接引用他人模型訓(xùn)練出來的精度，連復(fù)現(xiàn)都不帶的（危）；復(fù)現(xiàn)的模型超參數(shù)可能和原論文存在出入，或者沒有費心去調(diào)參?？傊?，比較模型表現(xiàn)的時候，可能出現(xiàn)各種各樣的事故，一定要記得將模型放在同樣的起跑線上，進行同樣的優(yōu)化步驟，最后，多測試幾次來證明模型的表現(xiàn)確實有顯著的進步。

2. 比較模型時，用點統(tǒng)計學(xué)

看到這一條的時候，實在忍不住想到，現(xiàn)在比較模型的方法，有時甚至不如寶可夢對戰(zhàn)。寶可夢好歹還可能因為屬性和技能導(dǎo)致的勝負反轉(zhuǎn)。模型之間就列一兩個指標，拿著1%的差異說事。還是多用用壓箱底的統(tǒng)計學(xué)知識吧，例如，比較分類器的時候可以上McNemar檢驗，檢查模型對數(shù)據(jù)擬合的分布時，可以試試Student’s T檢驗。關(guān)于模型到底有沒有顯著的改進這個問題，這些方法能夠提供更有力的理論支撐。

3. 如何正確地比較多個模型

如果用了統(tǒng)計學(xué)的知識來好好驗證模型效果，你需要注意到，比較多個模型的操作有點復(fù)雜。進行統(tǒng)計檢驗時，置信度往往設(shè)為95%，那么從統(tǒng)計學(xué)上來說，每20次檢測就會有1次的結(jié)論可能不可信。而模型越多，比較次數(shù)越多，出現(xiàn)失誤的概率也就越大。為了避免這一風(fēng)險，比對模型后，應(yīng)當(dāng)進行矯正，Bonferroni校正便是一種常用的方法，能夠簡單地根據(jù)測試的數(shù)量修正顯著性的閾值（這一操作目前仍然存在爭議）。

Bonferroni 校正：如果在同一數(shù)據(jù)集上同時檢驗n個獨立的假設(shè)，那么用于每一假設(shè)的統(tǒng)計顯著水平，應(yīng)為僅檢驗一個假設(shè)時的顯著水平的1/n。

4. 不要盲信benchmark的結(jié)果

基準測試之所以存在，是希望大家使用統(tǒng)一的數(shù)據(jù)訓(xùn)練和測試模型，使模型之間更容易比較。但是，即使你自己的模型訓(xùn)練完全符合規(guī)范，也不能保證他人是否將測試集用于訓(xùn)練了。實際上，很多表現(xiàn)最好的模型可能只是恰好過擬合了測試集，泛化性未必有保障?？傊欢ㄒ斏鞯貙Υ鶞蕼y試的結(jié)果，不要以為在基準數(shù)據(jù)集上有一點點性能提升就能證明模型的顯著性。

5. 記得考慮集成模型

雖然有些人可能很嫌棄，但應(yīng)用到子領(lǐng)域的的時候，能抓老鼠的就是好貓。縫合怪沒有錯。有時候，把不同的模型集成成為一個大一統(tǒng)模型，確實能夠利用它們各自的特點補齊短板，提升模型在面對多樣化場景時的泛化性。比如最近幾年興起的全景分割，目前最流行的操作就是把語義分割和像素分割的模型拼在一起，從而得到對前景中獨立個體和背景內(nèi)容的全面信息。集成模型的難點就是集成，如何結(jié)合每個子模型提取的數(shù)據(jù)特征，如何選擇合理的輸入和輸出格式。我有一位朋友，似乎每天在因為這些問題愁得掉頭發(fā)。

7 如何描述你的結(jié)果

1. 盡可能透明公開

機器學(xué)習(xí)領(lǐng)域的透明公開，一方面是指論文當(dāng)中對實驗關(guān)鍵步驟的詳細描述，另一方面則是指公開代碼。公開代碼能夠節(jié)約其他研究者復(fù)現(xiàn)論文的時間，也是督促你自己謹慎實驗的動力。

2. 多角度評估表現(xiàn)

用多個數(shù)據(jù)集、多個指標顯然能更好地評估模型的性能，比如實時性、泛用性、魯棒性。

需要注意的是，如果你采用的指標非常常見，如AP，MSE，就別在論文里列公式了，占地方。但是如果你采用的指標是近年新出的，甚至是你自己新提出的，花上幾行好好解釋一下這個指標的意義吧！你論文的貢獻說不定也包括這幾行！

3. 不要輕易推廣結(jié)論

“因為我的模型在XX數(shù)據(jù)集表現(xiàn)良好，它在XX任務(wù)上必然是未來之星“。這類說法不是很嚴謹，因為數(shù)據(jù)集永遠是真實世界的子集，無論你是否看得見，偏差必然存在。雖然這個說法一般不會直接導(dǎo)致論文被拒，但可能成為需要大修的理由之一。

4. 謹慎地討論顯著性

統(tǒng)計檢驗不是萬能的，不同的指標可能高估或低估模型之間的差異。在描述模型差異前，請先想清楚，這個差異重要嗎？只要數(shù)據(jù)集足夠大，哪怕模型性能相差無幾，實際測試結(jié)果也必然存在差異。或許，效應(yīng)量 (effect size)也是不錯的選擇，效應(yīng)量可以量化模型之間差異的大小，例如Cohen’s d，或者更為魯棒的Kolmogorov-Smirnov。

5. 模型：請再多懂我一點

這一點我非常痛苦地贊同?？磩e人的論文時，我最關(guān)心的就是討論部分，分析一個模型為什么會表現(xiàn)好，機理上有什么改變。但這也是論文、尤其是使用機器學(xué)習(xí)的論文最難寫的部分，因為很多作者自己都解釋不清為什么模型性能表現(xiàn)好。想要提供模型的可解釋性，目前最常見的做法就是可視化（我對你的愛，是為你而留的神經(jīng)元～?），XAI現(xiàn)在也在不斷發(fā)展，可以參考的方法越來越多。好好寫討論，論文的可信度會上升不少，被接收/引用的概率也會顯著提升。

8 尾聲

這其實不僅僅是對跑實驗過程的指南。如果按照這個規(guī)范來做實驗，你會發(fā)現(xiàn)論文會變得很好寫，而不是等要投稿了，再絞盡腦汁去想自己的工作到底有什么意義。因為你將有充分的理由去研究一個問題，有充分的理由把機器學(xué)習(xí)方法應(yīng)用到這個問題上，你的實驗過程是經(jīng)得起推敲的，你的結(jié)果分析是面面俱到的。最終，你會發(fā)自內(nèi)心地覺得自己沒有浪費生命，而是真的做出了一份有價值的工作，并獲得相當(dāng)?shù)某删透?/strong>。

引用原作者的話作為結(jié)尾：

這份指南并不完善，未必告訴了你所有你應(yīng)當(dāng)知道的內(nèi)容，提到的一些方法和技巧也是經(jīng)驗性的，它們可能在未來被證明有誤，或者存在爭議——但這恐怕是由研究的本性決定的。如何跑機器學(xué)習(xí)的方法論總是會落后于實踐，學(xué)者們總會在最佳的做事方法上爭論不休，而我們今日所信奉的正確可能在明天就會被證偽。因此，研究機器學(xué)習(xí)，其實與做其他研究無異：永遠保持開放的思維，愿意跟進最新的研究進展，并保持謙遜，承認你并非無所不知。

GAIR 2021大會首日：18位Fellow的40年AI歲月，一場技術(shù)前沿的傳承與激辯

2021-12-10

致敬傳奇：中國并行處理四十年，他們從無人區(qū)探索走到計算的黃金時代 | GAIR 2021

2021-12-09

時間的力量——1991 人工智能大辯論 30 周年紀念：主義不再，共融互生｜GAIR 2021

2021-12-12

論智三易，串聯(lián)通訊，貫通邊緣，演進認知，匯于機器：聽五位IEEE Fellow暢談AI未來 | GAIR 2021

2021-12-25

新一代AI人才從哪里來，該往哪里去？| GAIR 2021院長論壇

2021-12-29

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

1. 花點時間了解你的數(shù)據(jù)

2. 不要過度地分析數(shù)據(jù)

3. 確保你擁有足夠的數(shù)據(jù)

4. 和領(lǐng)域內(nèi)的專家保持交流

5. 好好做文獻調(diào)研！好好做文獻調(diào)研！

6. 考慮好要如何部署模型

1. 不要混淆訓(xùn)練和測試數(shù)據(jù)！

2. 多嘗試幾個模型

3. 不要使用不合適的模型

4. 好好調(diào)參！好好調(diào)參！

5. 注意調(diào)參和選擇特征的階段

1. 選擇合適的測試集

2. 驗證集是有必要的

3. 一個模型多驗證幾次

4. 留點數(shù)據(jù)用于最終驗證

5. 數(shù)據(jù)不均衡的時候，精度是沒有意義的

1. 不要以為分高了模型就好

2. 比較模型時，用點統(tǒng)計學(xué)

3. 如何正確地比較多個模型

4. 不要盲信benchmark的結(jié)果

5. 記得考慮集成模型

1. 盡可能透明公開

2. 多角度評估表現(xiàn)

3. 不要輕易推廣結(jié)論

4. 謹慎地討論顯著性

5. 模型：請再多懂我一點

相關(guān)新聞

盤點我跳過的科研天坑，進坑就是半年白干（科研四大天坑）

5. 好好做文獻調(diào)研！好好做文獻調(diào)研！

1. 不要混淆訓(xùn)練和測試數(shù)據(jù)！

4. 好好調(diào)參！好好調(diào)參！

5. 數(shù)據(jù)不均衡的時候，精度是沒有意義的