Transformer

用CNN做基礎模型，可變形卷積InternImage實現檢測分割新紀錄

機器之心專欄機器之心編輯部來自浦江實驗室、清華等機構的研究人員提出了一種新的基於卷積的基礎模型，稱為 InternImage，與基於 Transformer 的網路不同，InternImage 以可變形卷積作為核心運算元，使模型不僅具有檢測...

檢測模型倉儲 Transformer FASTER

技術論文｜基於 Transformer 改進的 Faster-Rcnn 倉儲箱體檢測演算法

001作者：李映松，楊愛英，劉軒，暢宇堃（北京理工大學光電學院）摘要：為解決傳統目標檢測方法準確性差、效率低，無法滿足智慧倉儲場景需求的問題，提出基於 Transformer 改進的Faster-Rcnn 倉儲箱體檢測模型...

BERT 模型 Transformer 單詞嵌入

圖解 BERT 預訓練模型

有了這個結構，我們可以繼續在同樣的語言建模任務上訓練這個模型：使用大規模未標記的資料來預測下一個詞...

FastBERT 模型分類器 Transformer 推理

廣告行業中那些趣事系列19：工業場景超實用的線上推理FastBERT

針對這些問題，FastBERT模型提出了一種根據樣本複雜度動態調整使用Transformer層數的樣本自適應機制(sample-wise adaptive mechanism)，訓練階段使用自蒸餾機制在每層Transformer後新增學生分...

token TokenLearner ViT Transformer 模型

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

TokenLearner的空間注意力圖的視覺化結論雖然Vision Transformer是計算機視覺領域的一個強大模型，但大量的token及龐大的計算量一直是將ViT應用於更大影象和更長影片的瓶頸...

Transformer 影象毫末感知資料

我們研究了特斯拉、毫末“自動駕駛演算法”的秘密

根據毫末智行 CEO 顧維灝的在 AI Day 上的介紹，MANA 系統採用 Transformer 在底層融合視覺和鐳射雷達資料，進而實現空間、時間、感測器三位一體的深層次感知...

Transformer 模型基準任務 LRA

谷歌、DeepMind提出高效Transformer評估基準

谷歌和 DeepMind 的研究人員對比了這些論文的評估和實驗設定，得到了以下幾點發現：首先，高效 Transformer 缺少統一的基準測試，使用的任務型別也多種多樣：每個模型在不同的任務和資料集上進行評估...

Transformer 注意力模型結構

用放大鏡看Transformer——總體和各個模組的結構

而在Transformer中， encoder和decoder採用的是一種基於注意力機制的模型，沒有天然的序列資料建模能力——Ashish Vaswani等人借鑑RNN的做法，對模型進行了一定的改造，為transformer添加了這種能力...

Transformer CV 論文 ViT 學習

Transformer秒殺CNN，憑什麼？

購買即贈《效率提升3倍的Paper閱讀方法》CV高手方法論，教你係統學習論文Transformer高手帶學節約21天論文學習時長深度之眼電子羊導師結合自己工作及學習經驗，並配合深度之眼教研團的打磨，總結出一條CV Transformer...

scratchpad 模型計算 Transformer 任務

加一個 scratchpad，就能讓 Transformer 更進一步？

總結這項研究透過長加法、多項式計算和 Python 程式碼執行等多項實驗表明，令大規模預訓練語言模型從簡單的 scratchpad 中進行讀取和寫入，能夠提升其處理計算任務的效能...

ViT 模型 Transformer 區塊訓練

用 Vision Transformer 進行影象分類

ViT 首先在大規模的圖片資料集上進行預訓練，然後再遷移到目標資料集上，得到的分類效果可以和當前最好的 CNN 模型相媲美，但是所需的計算資源大大減少...

卷積 CNN 模型 Transformer 視覺

自動駕駛CNN演算法最新進展，視覺和語言建模有望統一

這是“汽車人參考”第367篇原創內容“推動智慧電動汽車向前進”自動駕駛用於計算機視覺（CV）的深度學習模型，長時間由卷積神經網路CNN主導，而CNN主要有影象分類（Classfication）、目標識別（Detection）、語義分割（Se...

TCCT Informer 卷積 Transformer CSPAttention

TCCT:緊耦合卷積Transformer時間序列預測

為了解決這個問題，我們提出了緊耦合卷積變壓器（TCCT）的概念和三種TCCT架構，它們將轉換後的CNN架構應用到Transformer中：（1）CSPAttention: 透過CSPNet與自注意機制的融合，自注意機制的計算成本降低了30%...

預測序列 Transformer VideoGPT 影片

Transformers預測未來：關注下一幀和時間序列預測

在所有這些背景下，我們將研究transformer是否能以及如何用於預測未來事件，從傳統的時間序列資料(如天氣或股票價格預測)的方法，到更抽象的任務，如影片中的下一幀預測，模型應該學習不同的移動模式和額外的依賴...

https 影象 Transformer 模型 github

「11月30日」十一篇（將）開源論文程式碼分享

作者 | CV君編輯 | CV君報道 | 我愛計算機視覺（微信id：aicvml）Vector Quantized Diffusion Model for Text-to-Image Synthesis中國科學技術大學&微軟文章提出...

shortcut 特徵 Transformer 矩陣 MSA

北大&華為諾亞提出Vision Transformer的後訓練量化方法

Efﬁcient Implementation via Circulant Projection如上所述，在vision transformer中使用MSA和MLP模組並行多個增強shortcut可以提高特徵多樣性以獲得更高的效能...

stream 編碼器 CNN Transformer SSL

CARE，讓CNN和Transformer能在對比學習中“互幫互助”

受在識別場景中帶視覺注意力機制的Transformer的啟發，作者提出了一個CNN注意力恢復（CNN Attention REvitalization，CARE）框架來訓練SSL中由Transformer引導注意力的CNN編碼器...

Transformer 模型 Primer 修改搜尋

如何提升大規模Transformer的訓練效果？Primer給出答案

4 小結與討論儘管這篇論文長達35頁，但是關鍵結論十分簡單，而剩下的篇幅都在闡述如何進行模型搜尋和在不同任務上重複驗證Primer能否節約Transformer的訓練代價，對不關心這些細節的實踐者，完全可以跳過作者的長篇大論來直接使用作者的...

模態 token Transformer 融合模型

谷歌提出基於注意力瓶頸的方法MBT，簡單高效還省計算量

3 Fusion via Attention Bottlenecks為了克服attention的平方複雜度，作者在輸入序列中引入了個瓶頸token，輸入序列如下所示：然後，用這些瓶頸token來限制模型中的所有跨模態注意力...