眾所周知，當前LLM是人工智能界的香餑餑，眾多廠商和研究者都希望能夠在LLM上進行應用推廣和研究，這就難免需要對LLM進行下游任務的適配，最理想的情況當然是可以用私有數據，進行全網絡端到端的微調。但是LLM現在參數量巨大，大部分都大于6B，有些甚至達到了100B以上，即便是端到端微調都需要大量的硬件資源。PEFT(Parameter-Efficient FineTune)旨在最高效地引入參數，探索合適的訓練方式，使得LLM適配下游任務的代價最小化，而本文提到的Prompt Tuning [1] 就是這樣一個工作。

在介紹這個工作之前，我們得知道什么是prompt，關于prompt的內容之前在博文[2]中曾經介紹過，簡單來說，就是用某種固定的模板或者范式，嘗試去讓LLM去適配下游任務，從在prompt中是否提供例子的角度上看，又可以分為one-shot prompt, few-shot prompt, zero-shot prompt等。但是，在文章[3]中提到過，不同的prompt模板對性能的影響巨大，如Fig 1.所示，我們也把這種prompt稱之為硬提示詞（hard-prompt）。既然有『硬』的，那么就肯定有『軟』的prompt，soft-prompt指的是模型可以通過學習的方式去學習出prompt模板，經典工作包括P-Tuning [3], prefix prompt [4], soft prompt [5]，以及本文將會介紹到的prompt tuning [1]。

Fig 1. 不同的prompt模板對性能影響巨大

如Fig 2.所示，在prompt tuning中，在原有hard prompt模板之前拼接了若干個可學習的token，我們用 $P∈R p×d$ 表示soft prompt部分，其中 $p$ 為拼接的token數量，用 $X∈R n×d$ 表示hard prompt部分。那么，完整的prompt可表示為 $[\mathbf{P};\mathbf{X}] \in \mathbb{R}^ (p+n)×d$ ，模型的目標既變為了 $P(Y∣[P;X])$ 。此時，LLM的參數和embedding層的參數都是設置為不可學習的 (?)，整個網絡只有soft prompt層是可學習的（????），這意味著微調模型需要的內存和計算代價都大大減小了。

這是由于將LLM的參數設置成為了不可學習，因此在反向過程中很多參數并不需要在顯存中維護。假設模型的參數量為X，那么常用的Adam優化器的兩個動量就不需要維護了（減少2X），激活值通過重計算技術，已經縮減了絕大部分，并且梯度只需要傳遞到soft prompt部分，而不需要進行參數更新，因此梯度也可以不維護（減少X），因此所需顯存減少了3X，并且減少了對參數更新的計算量。

Fig 2. prompt tuning在原有hard-prompt模板之前，拼接了若干個可學習的token，并將其視為soft-prompt。

只需要設置不同的soft prompt就可以適配不同的下游任務了，如Fig 3. 所示，在模型參數量足夠大（）的時候，采用prompt tuning的效果足以比肩全參數微調，而且所需參數量只有后者的萬分之一，是名副其實的參數高效（Parameter-Efficient）方法。而不管在什么尺度的模型下，prompt tuning的結果都要遠遠優于hard prompt design的結果，人工設計的prompt模板確實很難與模型自己學習出來的競爭。

Fig 3. （a）在10B以上的模型中，采用prompt tuning的結果可以和全模型端到端微調的結果持平，（b）而prompt tuning增加的參數量只有全模型端到端微調的萬分之一。

此外，作者在論文中還進行了更多實驗去驗證prompt tuning的有效性和其他特性。第一個就是soft prompt所需要的長度，如Fig 4. (a)所示，在10B模型下，20-100個soft token是一個比較合適的數量，20個token能提供最大的性價比。如何初始化這些新增的soft token embedding也是一個指的思考的問題，作者嘗試了隨機均勻初始化，從詞表的embedding中采樣，以及對于分類任務而言，用label的類別embedding進行初始化，如Fig 4. (b) 所示，隨機初始化在模型參數量不夠的時候(< 10B)表現，不如從詞表采樣和label初始化的方法，但當模型參數量足夠大時，隨機初始化的效果能夠達到最好，優于從詞表中采樣的方法。考慮到本文采用的LLM是T5，而T5是一個encoder-decoder的結構，在設計預訓練任務的時候采用的是span corruption + 哨兵token的形式，如：

Origin: Thank you for inviting me to your party last week

Corrupted: Thank you for [X] me to your party [Y] week

Target: [X] inviting [Y] last [Z]

這樣設計預訓練任務能實現encoder-decoder架構的T5高效預訓練，但是這意味著模型沒有見過自然語言的輸入（因為輸入總是有哨兵token，比如[X]/[Y]等），為了實現T5到LM的適配，在本文中作者嘗試對T5進行了LM Adaptation的后訓練：繼續T5的少量預訓練，給定自然文本作為輸入，嘗試預測自然語言的輸出，而不是帶有哨兵token的文本。此外，作者還嘗試了所謂的Span Corruption + 哨兵的方法，指的是在原T5模型基礎上，在應用到下游任務預測時候，都給拼接上哨兵token，以減少下游任務和預訓練任務的gap。如Fig 4. （C）所示，無論采用多大尺度的模型，采用了LM Adaptation能帶來持續的增益，而Span Corruption或者Span Corruption+Sentinel的方法，則只在10B模型的尺度上能有比較好的效果（然而仍然無法超越前者）。那么LM Adaptation需要進行多少step的訓練合適呢？在Fig 4. (d)中，作者進行了若干嘗試，結果表明越多step將會帶來越多的收益，最終作者選定在100k step。

Fig 4. 對prompt tuning不同設置的探索實驗。

采用prompt tuning還有一個好處就是可以讓多個下游任務復用同一個LLM模型。在模型微調中，對于每個下游任務都需要維護一套獨立的模型，如Fig 5. 左圖所示，而在prompt tuning中，則只需要維護一套靜態的LLM模型，不同任務通過不同的soft prompt進行區分即可激發LLM的不同下游任務能力，如Fig 5. 右圖所示，因為可以節省很多資源，這對于部署來說很友好。

Fig 5. 采用prompt tuning的方式，可以很方便的用同一個模型覆蓋多個下游任務，實現資源節省。

Reference

[1]. Lester, Brian, Rami Al-Rfou, and Noah Constant. "The power of scale for parameter-efficient prompt tuning." arXiv preprint arXiv:2104.08691 (2021). aka Prompt Tuning.

[2]. //blog.csdn.net/LoseInVain/article/details/130500648, 《增強型語言模型——走向通用智能的道路？！？》

[3]. Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. 2021. Gpt understands, too. arXiv:2103.10385. aka p-tuning

[4]. Li, Xiang Lisa, and Percy Liang. "Prefix-tuning: Optimizing continuous prompts for generation." arXiv preprint arXiv:2101.00190 (2021). aka prefix tuning

[5]. Qin, Guanghui, and Jason Eisner. "Learning how to ask: Querying LMs with mixtures of soft prompts." arXiv preprint arXiv:2104.06599 (2021). aka soft prompt

最新电影在线观看,jrs低调看直播,avav天堂,囯产精品宾馆在线精品酒店,亚洲精品成人区在线观看

【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務適配方式

Reference