你的位置: 精品水蜜桃视频 > 电影 > 32k凹凸文可商用!羊驼进化成长颈鹿,“开源大模子之最”
热点资讯

32k凹凸文可商用!羊驼进化成长颈鹿,“开源大模子之最”

发布日期:2023-09-09 14:03    点击次数:144

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

堪称“宇宙首个凹凸文长度达32k的开源可商用大模子”来了。

名字“简便粗暴”,就叫“长颈鹿”(Giraffe),基于130亿边界的Llama-2打造。

如作家所言,原始的Llama-2和Llama-1皆唯有4k凹凸文,很难真实确企业边界被商用。

而当今这个是其8倍的“Giraffe”,平直更动这一地方:

莽撞一次处置更大文档、保管更万古候对话、实行更复杂检索且恶果出错更少……在开源大模子界中,可谓真实的买卖/企业友好。

网友纷纷暗示:“太有用了”、“或然就要试试”。

是以,长颈鹿是若何从羊驼“进化”而来的?

引申凹凸文长度的探索

长颈鹿的作家来自Abacus.AI。

这是一家搞AI数据科学平台的初创企业,确立于2019年,已完成5000万元C轮融资。

为了扩伸开源模子的凹凸文长度,他们将当前最高出的已有程序整理在一说念,并进行透澈测试笃定出最灵验的程序。

在此之上,他们也提倡了一些新想路,其中一种称为“截断(truncation)”,它阐明出了不小的后劲。

具体来看:

领先团队发现,当前已有的长下文外推程序无数皆是通过修改留意力机制中使用的位置编码系统,带领token和activation在输入序列中的位置而完成。

包括线性缩放/位置插值、xPos、或然化位置编码等等。

在此,他们提倡了两种新程序。

一个叫Power Scaling,主若是对原始的RoPE编码进行了如下变换:

这使得基础的高频(短距离)元素比低频(长距离)元素受到的影响更小,让模子不得不合低频元素进行不那么复杂的外推,从而让合座得到擢升。

另一个程序叫Truncated Basis(也就是上头所说的“截断”),主若是对原始RoPE编码进行了如下变换:

其中ρ是一个相对较小的固定值,a和b是采取的按捺值。

作家在这里的意见是,保留basis的高频重量,但将低频重量确立为恒定值(比如0)。

而通过奢睿地采取按捺值a,模子就可以在微调手艺(由于正弦函数和正弦函数的周期性)履历凹凸文长度中的扫数basis值,从而更好地外推到更大的凹凸文长度。

接下来,即是对以上这些程序进行透澈测试。

在此,作家觉得,许多东说念主只用困惑度来估计模子的长下文智商是远远不够的,因为它的细粒度不够。

为此,除了困惑度,他们还加了三个新的评估任务(皆已公开导布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前两个是一类,为问答任务,第三个为要津值检索任务。

通过使用这两种类型的任务,咱们莽撞强制条款模子愈加关爱完整的凹凸文,从而取得高精度的测试恶果。

那么恶果若何?

平直上论断:

领先,线性插值是最佳的凹凸文长度外推程序。

其次,扫数凹凸文长度外推程序皆跟着长度的加多,在职务准确性上出现了下跌。

第三,通过在评估阶段使用比微调时更高的比例因子,可以进一步加多凹凸文长度,但比例因子似乎最多只可提高2倍。

以下是这些程序在三个评估数据集上的具体阐明(精度为1.0暗示性能竣工,0.0暗示每次评估皆是差错的):

△LongChat Lines

△AlteredNumericQA和FreeFormQA

可以看到,除了佐证上头的论断,作家们新提倡的Truncated Basis程序阐明确乎可以,有一定的出路。

而基于以上沟通,团队也在LLaMA2-13B基础模子上发布了长颈鹿大模子,天然,用的是性能最优的线性插值法。

凭据凹凸文长度不同,长劲鹿家眷最终一共有三个版块:4k、16k和32k,感意思的一又友就可以去HuggingFace凹凸载了。

其实是比肩第一

天然Abacus.AI堪称长颈鹿是宇宙首个凹凸文可达32k的开源LLM,但Together.AI其实更为抢先一步:

他们已在本月初发布了32k的Llama-2-7B大模子(已有近1万7千次下载),以及在上周五发布了llama-2-7b-32k-instruct。

全球的凹凸文长度相同,惟一的大分袂是Together.AI的参数边界要小些。

当今,大伙也意思能不可出一个对比,望望究竟谁更胜一筹。

论文地址:

https://arxiv.org/abs/2308.10882

友情连气儿:

https://huggingface.co/abacusai/Giraffe-v2-13b-32k

https://huggingface.co/togethercomputer/LLaMA-2-7B-32K

https://huggingface.co/togethercomputer/Llama-2-7B-32K-Instruct

参考连气儿:

https://twitter.com/bindureddy/status/1694126931174977906

— 完 —

量子位 QbitAI · 中新号签约



----------------------------------