tokenTokenLearnerViTTransformer模型豪取4個SOTA,谷歌魔改Transformer登NeurIPS 2021TokenLearner的空間注意力圖的視覺化結論雖然Vision Transformer是計算機視覺領域的一個強大模型,但大量的token及龐大的計算量一直是將ViT應用於更大影象和更長影片的瓶頸...