chatglm-cpp使用指南

介绍

chatglm-cpp是基于C/C++实现的ChatGLM大模型接口，可以支持用户在消费者级别的CPU机器上完成开源大模型的部署和使用。 chatglm-cpp支持多个中文开源大模型的部署，如ChatGLM-6B，ChatGLM2-6B，Baichuan-13B等。

chatglm-cpp核心架构分为两层

特性：

处理器架构：支持AArch64和X86_64处理器架构；

操作系统：openEuler 23.09；

内存：根据不同开源模型的大小，不低于4G。

使用chatglm-cpp部署大模型，需要安装chatglm-cpp软件包。安装前，请确保已经配置了openEuler yum源。

yum install chatglm-cpp

/usr/bin/chatglm_cpp_main -h

若成功显示help信息则安装成功。

/usr/bin/chatglm_cpp_main -m model_path  -i

可通过以下命令查看命令行选项用法：

/usr/bin/chatglm_cpp_main -h

本项目可支持在CPU级别的机器上进行大模型的部署和推理，但是模型推理速度对硬件仍有一定的要求，硬件配置过低可能会导致推理速度过慢，降低使用效率。

表1可作为不同机器配置下推理速度的参考：

表格中Q4_0，Q4_1，Q5_0，Q5_1代表模型的量化精度；ms/token代表模型的推理速度，含义为每个token推理耗费的毫秒数，该值越小推理速度越快；

表1 模型推理速度的测试数据

ChatGLM-6B	Q4_0	Q4_1	Q5_0	Q5_1
ms/token (CPU @ Platinum 8260)	74	77	86	89
模型大小	3.3G	3.7G	4.0G	4.4G
内存占用	4.0G	4.4G	4.7G	5.1G