重训“羊驼”大模型并彻底开放商用UC伯克利博半岛·BOB官方网站士生：Meta不愿做就自己做

2024-08-24 23:22:59

　　半岛·体育bob官方网Meta“羊驼”（LLaMA）的开源可商用复现品OpenLLaMA发布重大更新：

　　与此同时，之前发布的70亿以及30亿参数版本也完成了1T token的训练，并发布PyTorch和JAX权重。

　　性能测试显示，OpenLLaMA在多项任务中的表现都与原始LLaMA相当，并且不乏超越的情况。

　　它在Together公司发布的RedPajama数据集上训练半岛·BOB官方网站，该数据集其实也是LLaMA训练集的复制品，一共包含1.2T token。

　　除了数据集不太一样之外，OpenLLaMA使用了与原始LLaMA完全相同的预处理步骤和训练超参数半岛·BOB官方网站，包括模型架构、上下文长度、训练步骤、学习率时间表和优化器，可以说是“重训”了一把。

　　今年5月，该团队率先发布了70亿参数版本，不过当时训练token还是3000亿。

　　按照计划，如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。

　　使用该格式时需要注意先避免使用Hugging Face快速分词器（tokenizer），因为它的自动转换功能有时会给出不正确的tokenization。

　　在此请注意，与原始LLaMA不同，该OpenLLaMA的分词器和权重是完全从头开始训练的，因此不再需要获取原始 LLaMA的这俩信息。

　　接下来，在训练量已达成一致的情况下，看OpenLLaMA各规模模型的性能表现如何。

　　在这里，作者使用EleutherAI发布的自回归语言模型few-shot评估框架（lm-evaluation-harness）对两只“羊驼”进行评估半岛·BOB官方网站，以及还加入了“第三者”：

　　需要注意的是，可能是因为不同的评估协议，作者跑出来的LLaMA结果与原始LLaMA略有不同。

　　与此同时，只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。

　　特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上半岛·BOB官方网站，曾多次表达一个意思：

　　现在，650亿的商用平替羊驼虽然还没出现，130亿和70亿是已经妥妥安排好了。

　　就在几天前半岛·BOB官方网站，据The Information爆料，Meta AI正计划发布一个新的LLM，并且免费供大家商用。

　　有观点指出，在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下，Meta这一做法可能会引发连锁反应，并且开源模型和闭源模型的差距会越来越小。

　　原标题：《重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。