Mistral-7B 部署

前言 #

意外发现 Mistral AI 开源的 Mistral 7B，声称在所有基准测试中的表现均优于 Llama2-13B，迫不及待的在公司服务器上进行了部署。测试后，发现效果真的很好：

使用相同的 Prompt 测试代码生成能力，Mistral-7B 效果略次于 CodeLlama-13B-8bit 模型。Mistral-7B 及其 4、8bit 量化版本差异不大。
Mistral-7B 逻辑推理能力很差。如：a=1, b=2, n=a+b, n=?，Mistral-7B 无法回答。
推理速度很快，目测在1s内可以完成一次推理。

我想在自己的个人笔记本电脑上也进行部署，我的需求如下：

综上，只能选择 Mistral-7B 的 4bit 量化版本。但由于 bitsandbytes 不支持 windows，因此无法使用 bitsandbytes 进行量化。幸运的是，有人已经将 Mistral-7B 量化为 4bit，我只需要下载即可。

部署流程参考 CSDN博客

首先，在 TheBloke/Mistral-7B-OpenOrca-GGUF 中下载推荐使用的 4bit 模型文件 mistral-7b-openorca.Q4_K_M.gguf, 该模型运行所需要的最大内存为 6.87 GB。

pip install ctransformers[cuda]