Mistral 7B:7B 开源模型如何打赢 Llama 2 13B
Mistral 7B 是 70 亿参数的开源模型,在所有评测基准上都胜过 Llama 2 13B,靠分组查询注意力和滑动窗口注意力做到低成本推理,且以 Apache 2.0 协议开源。
机构
欧洲实验室,发布 Mistral 7B、Mixtral 专家混合等高效开放权重语言模型。
Mistral 7B 是 70 亿参数的开源模型,在所有评测基准上都胜过 Llama 2 13B,靠分组查询注意力和滑动窗口注意力做到低成本推理,且以 Apache 2.0 协议开源。
Mixtral 每层从 8 个专家中只选 2 个,共 47B 参数、每 token 仅约 13B,以 Apache 2.0 开源,持平或超过 Llama 2 70B 和 GPT-3.5。