200萬上下文窗口創(chuàng)飛Gemini 1.5!微軟來砸谷歌場子了
谷歌剛刷新大模型上下文窗口長度記錄,發(fā)布支持100萬token的Gemini 1.5,微軟就來砸場子了。
推出大模型上下文窗口拉長新方法——LongRoPE,一口氣將上下文拉至2048k token,也就是200多萬!

并且1000步微調(diào)內(nèi),即可完成從短上下文到長上下文的擴展,同時保持原來短上下文窗口性能,也就是說訓練成本和時間又省了一大筆。
網(wǎng)友看不下去了,直呼“谷歌太慘了”:

此外值得一提的是,這次LongRoPE為純?nèi)A人團隊,論文一作Yiran Ding,就讀于杭州電子科技大學,于實習期間完成該項工作。

LongRoPE究竟長啥樣?先來看一波測試效果。
拿LLaMA2和Mistral試試水
上下文窗口有效拉長,語言模型長文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應用LongRoPE,從三個方面評估了其性能。
第一項測試是在長文檔上評估擴展上下文語言模型的困惑度。
在256k以內(nèi)的評估長度上,研究人員使用Proof-pile和PG19數(shù)據(jù)集來進行測試。
LongRoPE在4k-256k的文本長度上,整體上顯示出困惑度下降的趨勢,優(yōu)于基準。

即使在上下文窗口長度是標準長度16倍的條件下,LongRoPE-2048k模型在256k上下文長度內(nèi)也超過了最新基線水平。

接下來上難度,從Books3數(shù)據(jù)集中隨機選取20本書,每本長度超2048k,使用256k的滑動窗口。
研究人員觀察到2048k的LLaMA2和Mistral之間性能差異顯著。

在8k-128k的文本長度上二者均取得了與基線相當?shù)幕蚋鼉?yōu)的困惑度。LLaMA2的困惑度隨著文本長度的增加而逐漸下降,在1024k和2048k長度處略有上升,展示了較好的性能。

不過,Mistral在較短的長度上勝過基線,但當文本長度超過256k時,其困惑度急劇上升。研究人員分析,主要原因是對于Mistral的微調(diào)采用了與YaRN相同的設置,即使用16k長度的文本進行訓練,導致了模型難以有效處理更長的文本。
第二項測試是用Passkey檢索任務評估在海量無關文本中檢索簡單密鑰的能力。
也就是在很長的文本中隨機隱藏一個五位數(shù)的密碼,讓模型找出這個密碼。
結果顯示,現(xiàn)有模型的準確率在文本超度超128k后迅速下降到0。
而LLaMA2-2048k在4k-2048k文本范圍內(nèi)保持了90%以上的檢索準確率,Mistral-2048k在1800k之前保持了100%的準確率,在2048k時準確率下降到60%。

第三項測試是在短4096上下文窗口長度內(nèi)的標準大語言模型基準測試上評估。
這項測試,主要是為了檢驗模型上下文窗口被擴展后,在原有任務上的表現(xiàn)會不會受到負面影響。
LongRoPE-2048k模型在原始上下文窗口大小的任務上,與原始模型相比表現(xiàn)相當。
在TruthfulQA上,擴展后的Mistral比原始高出0.5%;LLaMA2性能略微下降,但在合理的范圍內(nèi)。

這是如何做到的?
三大法寶擴展上下文窗口
LongRoPE可以有效擴展模型上下文窗口關鍵有三:非均勻位置插值、漸進式擴展策略、短上下文窗口性能恢復。
非均勻位置插值
位置嵌入(Positional Embeddings)在Transformer架構中,用于幫助模型理解長句中token的順序。
位置嵌入通常是預先定義的,并與模型的其他參數(shù)一起訓練,當模型需要處理的文本長度超過其訓練時的上下文窗口時,新出現(xiàn)的token的位置就需要新的位置嵌入。
而LongRoPE通過識別并利用位置嵌入中兩個形式的非均勻性,即不同的RoPE維度和token位置,優(yōu)化了位置嵌入,不用微調(diào)就能實現(xiàn)8倍的上下文窗口擴展。

這種方法通過有效的搜索算法來確定每個RoPE維度的最佳縮放因子,針對每個RoPE維度的旋轉(zhuǎn)角進行了重新縮放,同時也考慮了token位置的影響。
這樣,模型在擴展上下文窗口的同時,能夠更好地保留關鍵的維度和位置信息,減少信息損失。
漸進式擴展策略
此外,LongRoPE采用了一種漸進式擴展的方法。研究人員先對預訓練的大模型進行微調(diào),使其適應256k長度的文本。
然后,在微調(diào)后模型基礎上進行搜索,找到新的位置插值參數(shù)以重新縮放RoPE,最終實現(xiàn)2048k上下文窗口,這個過程無需額外微調(diào)。
短上下文窗口性能恢復
在RoPE(旋轉(zhuǎn)位置編碼)中,超長上下文窗口會使得原始窗口內(nèi)的維度被迫聚集在更小范圍內(nèi),從而影響模型性能。
為此,研究人員調(diào)整了短上下文窗口RoPE的重縮放因子,使其與長上下文時不同,緩解了性能下降的問題。
通過這種動態(tài)調(diào)整機制,LongRoPE在處理極長文本和處理短文本時都表現(xiàn)良好。
LongRoPE發(fā)布后,部分網(wǎng)友認為RAG恐面臨淘汰:


不過也有質(zhì)疑的聲音:

那么,你怎么看?
- ·蘋果透明度報告 揭露各國政府對數(shù)據(jù)安全的要求
- ·IMAX中國上半年票房收入2.36億美元 影院數(shù)量..
- ·《原神》正式宣布登錄NS 發(fā)售日期仍未確定
- ·索尼PS5主機與DualShock5手柄最新渲染圖曝光
- ·自動剪超長鼻毛 雙刃刀片穩(wěn)準狠!電動鼻毛修..
- ·百度宣布“云+AI”戰(zhàn)略升級 CTO王海峰統(tǒng)領
- ·蓋茨基金會2019《目標守衛(wèi)者》報告:全球健康..
- ·霍啟剛:電子體育應與傳統(tǒng)相結合 引導積極正確..
- ·修復人類DNA損傷 科學家從植物中找到新線索
- ·高清一區(qū)二區(qū)不卡視頻農(nóng)機 印象筆記網(wǎng)頁版段這