ViT

為融入新戰隊bo同時學3門語言, 歐服排位上分如喝水, 彷彿打人機

01bo加入新隊才發現大問題：想交流要學3門新語言而VIT這支隊伍比較雜亂，選手說的是不同語言...

總之VIT想靠Bo起死回生很難，一方面歐洲今年名額本來就不多，另一方面自己春季賽成績太差，夏季賽想要殺進前三難度極高...

TokenLearner的空間注意力圖的視覺化結論雖然Vision Transformer是計算機視覺領域的一個強大模型，但大量的token及龐大的計算量一直是將ViT應用於更大影象和更長影片的瓶頸...

本文作者rumor就愷明大神新工作中引用比較重點的工作，清晰的闡述了MAE的成功之處：”明明別人都試過了，覺得不work，而MAE就是能把過往工作的問題想清楚，然後做出效果...

購買即贈《效率提升3倍的Paper閱讀方法》CV高手方法論，教你係統學習論文Transformer高手帶學節約21天論文學習時長深度之眼電子羊導師結合自己工作及學習經驗，並配合深度之眼教研團的打磨，總結出一條CV Transformer...

ViT 首先在大規模的圖片資料集上進行預訓練，然後再遷移到目標資料集上，得到的分類效果可以和當前最好的 CNN 模型相媲美，但是所需的計算資源大大減少...

MAE採用了非對稱的編解碼器架構，編碼器僅作用於可見影象塊（即輸入影象塊中一定比例進行丟棄，丟棄比例高達75%）並生成隱式表達，解碼器則以掩碼token以及隱式表達作為輸入並對遺失塊進行重建...

由於預訓練的Transformer可以在NLP中的句子級任務以及token級任務上進行微調，因此，作者提出了一個問題：ViT能否也遷移到計算機視覺中更復雜的任務中，例如目標檢測...

最後，為了分析ViT中池化層的作用，作者計算了ViT的空間互動比（類似於CNN的感受野大小），發現ViT中的池化層具有控制Self-Attention空間相互作用大小的效果（類似於CNN的感受野控制）...