网站在线观看mv视频,精品久久久久久天美传媒

Uber近日一篇論文引起許多討論：該論文稱發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡一個引人注目的“失敗”，并提出解決方案CoordConv。論文稱CoordConv解決了坐標變換問題，具有更好的泛化能力，訓練速度提高150倍，參數(shù)比卷積少10-100倍。當然，這是在極大的計算力（100個GPU）的基礎上進行的。這真的是重要的結(jié)果嗎？計算機視覺領域?qū)＜褾ilip Piekniewski對此提出質(zhì)疑。

我讀了很多深度學習論文，通常每周都會閱讀幾篇。我讀過的論文可能已經(jīng)有上千篇。我發(fā)現(xiàn)，機器學習或深度學習方面的論文普遍存在的問題是，它們通常處于科學和工程之間的某個無人區(qū)，我稱之為“學術工程”（ac ademic engineering）。我對其描述為：

以我個人的淺見而言，一篇科學論文應該傳達一種有能力解釋某事的idea。例如，一篇證明數(shù)學定理的論文，一篇提出某種物理現(xiàn)象模型的論文?；蛘?，一篇科學論文可以是實驗性的，實驗的結(jié)果告訴我們一些關于現(xiàn)實的基本知識。盡管如此，科學論文的核心思想是對一些非平凡的普遍性（和預測力）或?qū)ΜF(xiàn)實本質(zhì)的一些非平凡的觀察的相對簡潔的表述。

一篇工程論文應該介紹一種解決特定問題的方法。問題可能會因應用而異，有時它們可能非常無趣而具體，但對某個領域的人來說卻是有用的。對于一篇工程論文來說，與科學論文不同的是：解決方案的普遍性可能不是最重要的。重要的是解決方案能夠有效地實施，例如，給定可用的組件，能比其他解決方案更便宜或更節(jié)能，等等。工程論文的核心思想是應用，其余的僅僅是解決應用問題的想法的集合。

機器學習介于兩者之間。機器學習領域既有一些明顯的科學論文（例如提出反向傳播backprop的論文），也有一些明顯的工程論文的例子，例如描述一個非常特殊的實際問題的解決方案。但機器學習中大多數(shù)論文似乎都是工程的，只不過它們的工程是指在一個學術數(shù)據(jù)集上設計出一種綜合的測量方法。為了顯示出優(yōu)勢，一些特別的技巧被從沒有人知道的地方提取出來（通常具有極其有限的普遍性），并且經(jīng)過一些統(tǒng)計上不重要的測試后宣布該方法最優(yōu)。

還有第四種論文，它確實提出一個idea。這個idea甚至可能是有用的，但它同時也是微不足道的。為了掩蓋這種尷尬的事實，“學術工程”重炮再次上膛，使得論文整體上看起來令人印象深刻。

這就是Uber人工智能實驗室（Uber AI labs）最近的一篇論文“"An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution”（卷積神經(jīng)網(wǎng)絡的問題及其解決方案CoordConv）的情況，我將在下面詳細剖析這篇論文。

只需大約50行python代碼的事情

讓我們直接看這篇論文的內(nèi)容。

這篇論文的核心論點是：卷積神經(jīng)網(wǎng)絡在需要定位的任務上表現(xiàn)不太好，在這些任務中，輸出標簽或多或少是輸入實體坐標的直接函數(shù)，而不是該輸入的任何其他屬性。

卷積網(wǎng)絡確實不能很好地解決這個問題，因為卷積神經(jīng)網(wǎng)絡的原始模型神經(jīng)認知機（Neocognitron）的設計就是忽視位置的。接下來，作者提出了一個解決方案：在卷積層中添加坐標，作為附加的輸入映射。

卷積層和添加坐標的CoordConv層

這聽起來非常聰明，但作者實際上提出的是該領域任何一名從業(yè)者都認為是理所當然的東西——添加一個更適合解碼所需輸出的特征（feature）。任何在計算機視覺領域做實際工作的人都不會認為添加特征有什么非凡之處，盡管在深度學習圈的純粹學術爭論中這是一個激烈的話題，脫離實際應用的研究人員認為我們應該只使用學習的特征，因為這種方式更好。因此，深度學習的研究人員現(xiàn)在開始喜歡特性工程，雖然這也許不是壞事……

總之，他們添加了一個特性，即坐標的顯式值。然后他們創(chuàng)建了一個簡單的數(shù)據(jù)集（稱之為Not-so-Clevr），以測試這一想法的性能。

Not-so-Clevr數(shù)據(jù)集

那么他們的實驗是否聰明呢？讓我們看看。

論文中使用的Toy tasks

任務之一是基于坐標生成一個one-hot圖像，或者基于一個one-hot圖像生成坐標。實驗表明，將坐標添加到卷積網(wǎng)絡確實可以顯著提高性能。

不過如果他們不是直接跳到TensorFlow，也許這就不那么令人震驚了，他們會發(fā)現(xiàn)，可以明確地構(gòu)建一個神經(jīng)網(wǎng)絡來解決從one-hot到坐標的關聯(lián)問題，而無需任何訓練。對于這個任務，我會使用三個操作：卷積、非線性激活、以及求和。幸運的是，這些都是卷積神經(jīng)網(wǎng)絡的基本組成部分：

注意：one hot像素位圖到坐標翻譯！一個卷積層，一個非線性激活，一個求和，最后一個減法。就是這樣。無需學習，只有大約50行python代碼（帶注釋）……對于這個任務，給定坐標特征是微不足道的。毫無疑問，這是可行的。到目前為止，我們所用的知識還沒有超出一個剛上完ML 101課程的學生所能解決的。所以，他們不得不使用重型火炮：GAN。

好吧，讓我們用GAN試試這個合成生成任務，一個帶有坐標特征，一個沒有。好了，現(xiàn)在讓我們繼續(xù)看論文……

他們在附錄的表格中給出了結(jié)果：

他們在ImageNet上嘗試了這個坐標特征，將它添加到ResNet-50網(wǎng)絡的第一層。我認為不會有太大的差別，因為ImageNet中的類別讀取不是位置的函數(shù)（如果存在這樣的偏差，那么在訓練期間的數(shù)據(jù)增強應該完全刪除它）。所以他們用100個GPU來訓練網(wǎng)絡（100個GPU！天啊?。Ｈ欢?，到小數(shù)點后第4位，結(jié)果才顯示出一點差異。Facebook、谷歌的人可能會用10000個GPU來復現(xiàn)這個結(jié)果吧。這些GPU能不能用來做些更重要的事情?

總結(jié)

這確實是一篇吸引人的論文。它揭露了當前深度學習研究的淺薄之處，這些研究被荒謬的計算量所掩蓋了。為什么Uber AI 實驗室要做這個研究？有什么意義？我的意思是，如果這些是某個大學的某些學生做的，他們想做出點什么投給會議，那么無可厚非。但Uber AI？我以為這些人應該致力于打造自動駕駛汽車，不是嗎？不過，比這篇論文更有趣的是哪些對這個結(jié)果的無足輕重無知，而去贊美它的追隨者。請閱讀原始博客（https://eng.uber.com/coordconv）的評論，或者Twitter上的評論，贊美者甚至包括一些著名的DL研究人員。他們顯然花了很多時間盯著GPU上的進度條，才意識到他們在稱贊一些顯而易見的東西，這些顯而易見的東西可以用幾行python代碼手工構(gòu)建。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關注

關注
42

文章
4820

瀏覽量
106316
機器學習

機器學習

+關注

關注
66

文章
8532

瀏覽量
136016
python

python

+關注

關注
56

文章
4849

瀏覽量
89200

原文標題：【卷積神經(jīng)網(wǎng)絡失陷】幾行Python代碼搞定，偏要用100個GPU！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

卷積神經(jīng)網(wǎng)絡的問題及其解決方案CoordConv

評論