介紹 FLAN：具有指令微調功能的更通用的語言模型

對於生成有意義的文字的機器學習模型，它必須具有大量關於世界的知識以及抽象的能力。雖然經過訓練的語言模型在擴充套件時越來越能夠自動獲取這些知識，但如何最好地解鎖這些知識並將其應用於特定的現實世界任務尚不清楚。

一種行之有效的技術稱為微調，即在標記的資料集上訓練預訓練模型（如BERT和T5），以使其適應下游任務。但是，微調需要大量的訓練示例，以及為每個下游任務儲存的模型權重，這並不總是可行的，特別是對於大型模型。

在”微調語言模型是零鏡頭學習者”中，我們探索了一種稱為指令微調的簡單技術，或簡稱指令調優。這涉及微調模型，不是為了解決特定的任務，而是為了使其更適合解決一般的NLP任務。我們使用指令調優來訓練一個模型，我們稱之為微調LAnguage Net（FLAN）。由於與預訓練模型所涉及的大量計算相比，FLAN的指令調優階段只需要少量的更新，因此它是預訓練主課程的隱喻甜點。這使FLAN能夠執行各種看不見的任務。

背景

最近使用語言模型解決任務的一種流行技術稱為零觸發或少觸發提示。此技術基於語言模型在訓練期間可能看到的文字制定任務，然後語言模型透過完成文字來生成答案。例如，為了對電影評論的情緒進行分類，可以給語言模型一個句子，”電影評論’自漂亮女人以來最好的RomCom’是_“，並要求用”積極”或”消極”一詞完成句子。

儘管此技術在某些任務中表現出良好的效能，但它需要仔細的及時工程設計，以將任務設計成模型在訓練期間看到的資料 - 這種方法在某些但不是所有任務上表現良好，並且對於從業者來說也可能是一種不直觀的方式與模型進行互動。例如，GPT-3（當今使用的最大語言模型之一）的建立者發現，這種提示技術並不能在自然語言推理（NLI）任務上產生良好的效能。

指令調優

FLAN 反而根據大量不同的指令對模型進行微調，這些指令使用簡單直觀的任務描述，例如”將此電影評論分類為正面或負面”或”將此句子翻譯成丹麥語”。

從頭開始建立指令資料集以微調模型將花費大量資源。因此，我們改用模板將現有資料集轉換為教學格式。