提高CPU平台上的大型语言模型推理性能。
项目描述
xFasterTransformer
xFasterTransformer是针对X86平台上的大型语言模型(LLM)的优化解决方案,类似于GPU平台上的FasterTransformer。xFasterTransformer能够在多个套接字和节点上以分布式模式运行,以支持较大模型的推理。此外,它提供从高级到低级的C++和Python API,易于采用和集成。
目录
模型概述
大型语言模型(LLM)发展非常迅速,并在许多AI场景中得到更广泛的应用。xFasterTransformer是针对Xeon平台上的主流和流行LLM模型推理的优化解决方案。xFasterTransformer充分利用了Xeon平台的硬件能力,实现了LLM推理在单插槽和多个插槽/多个节点上的高性能和高可扩展性。
xFasterTransformer为终端用户提供了一系列API,包括C++和Python,以便直接将其集成到自己的解决方案或服务中。还提供了一系列示例代码来演示使用方法。还提供了基准代码和脚本,供用户展示性能。还提供了流行LLM模型的Web演示。
模型支持矩阵
模型 | 框架 | 分布式 | |
---|---|---|---|
PyTorch | C++ | ||
ChatGLM | ✔ | ✔ | ✔ |
ChatGLM2 | ✔ | ✔ | ✔ |
ChatGLM3 | ✔ | ✔ | ✔ |
GLM4 | ✔ | ✔ | ✔ |
Llama | ✔ | ✔ | ✔ |
Llama2 | ✔ | ✔ | ✔ |
Llama3 | ✔ | ✔ | ✔ |
百川 | ✔ | ✔ | ✔ |
百川2 | ✔ | ✔ | ✔ |
QWen | ✔ | ✔ | ✔ |
QWen2 | ✔ | ✔ | ✔ |
SecLLM(YaRN-Llama) | ✔ | ✔ | ✔ |
优化 | ✔ | ✔ | ✔ |
Deepseek-coder | ✔ | ✔ | ✔ |
gemma | ✔ | ✔ | ✔ |
gemma-1.1 | ✔ | ✔ | ✔ |
codegemma | ✔ | ✔ | ✔ |
支持的数据类型列表
- FP16
- BF16
- INT8
- W8A8
- INT4
- NF4
- BF16_FP16
- BF16_INT8
- BF16_W8A8
- BF16_INT4
- BF16_NF4
- W8A8_INT8
- W8A8_int4
- W8A8_NF4
文档
xFasterTransformer 文档和Wiki提供了以下资源
- xFasterTransformer 简介。
- C++和PyTorch中高级和低级接口的全面API参考。
- xFasterTransformer在C++和PyTorch中的实际API使用示例。
安装
从PyPI
pip install xfastertransformer
使用Docker
docker pull intel/xfastertransformer:latest
使用以下命令运行docker(假设模型文件位于/data/
目录)
docker run -it \
--name xfastertransformer \
--privileged \
--shm-size=16g \
-v /data/:/data/ \
-e "http_proxy=$http_proxy" \
-e "https_proxy=$https_proxy" \
intel/xfastertransformer:latest
注意!!!:在多rank模式下运行时如果出现bus error
,请增大--shm-size
。默认的docker将共享内存大小限制为64MB,而我们的实现使用许多共享内存以实现更好的性能。
从源码构建
准备环境
手动
-
PyTorch v2.3(当使用PyTorch API时是必需的,但使用C++ API时则不是必需的。)
pip install torch --index-url https://download.pytorch.org/whl/cpu
-
对于GPU,由于DPC++需要ABI=1,xFastTransformer需要从torch==2.3.0+cpu.cxx11.abi在torch-whl-list中获取ABI=1。
安装依赖库
请安装libnuma包
- CentOS: yum install libnuma-devel
- Ubuntu: apt-get install libnuma-dev
如何构建
- 使用'CMake'
# Build xFasterTransformer git clone https://github.com/intel/xFasterTransformer.git xFasterTransformer cd xFasterTransformer git checkout <latest-tag> # Please make sure torch is installed when run python example mkdir build && cd build cmake .. make -j
- 使用
python setup.py
# Build xFasterTransformer library and C++ example. python setup.py build # Install xFasterTransformer into pip environment. # Notice: Run `python setup.py build` before installation! python setup.py install
模型准备
xFasterTransformer支持与Huggingface不同的模型格式,但与FasterTransformer的格式兼容。
-
首先下载huggingface格式的模型。
-
然后,使用xfastertransformer中的模型转换模块将模型转换为xFasterTransformer格式。如果未提供输出目录,则转换后的模型将放置在
${HF_DATASET_DIR}-xft
中。python -c 'import xfastertransformer as xft; xft.LlamaConvert().convert("${HF_DATASET_DIR}","${OUTPUT_DIR}")'
PS:由于模型文件与
transformers
版本之间可能存在潜在的兼容性问题,请选择适当的transformers
版本。支持模型转换列表
- LlamaConvert
- YiConvert
- GemmaConvert
- ChatGLMConvert
- ChatGLM2Convert
- ChatGLM4Convert
- OPTConvert
- BaichuanConvert
- Baichuan2Convert
- QwenConvert
- Qwen2Convert
- DeepseekConvert
API使用
有关更多详细信息,请参阅API文档和示例。
Python API(PyTorch)
首先,请安装依赖项。
- Python依赖项
pip install -r requirements.txt
PS:由于模型文件与transformers
版本之间可能存在潜在的兼容性问题,请选择适当的transformers
版本。 - oneCCL(对于多rank)
安装oneCCL并设置环境。请参阅准备环境。
xFasterTransformer的Python API与transformers类似,也支持transformers的streamer以实现流式输出。在示例中,我们使用transformers将输入提示编码为token id。
import xfastertransformer
from transformers import AutoTokenizer, TextStreamer
# Assume huggingface model dir is `/data/chatglm-6b-hf` and converted model dir is `/data/chatglm-6b-xft`.
MODEL_PATH="/data/chatglm-6b-xft"
TOKEN_PATH="/data/chatglm-6b-hf"
INPUT_PROMPT = "Once upon a time, there existed a little girl who liked to have adventures."
tokenizer = AutoTokenizer.from_pretrained(TOKEN_PATH, use_fast=False, padding_side="left", trust_remote_code=True)
streamer = TextStreamer(tokenizer, skip_special_tokens=True, skip_prompt=False)
input_ids = tokenizer(INPUT_PROMPT, return_tensors="pt", padding=False).input_ids
model = xfastertransformer.AutoModel.from_pretrained(MODEL_PATH, dtype="bf16")
generated_ids = model.generate(input_ids, max_length=200, streamer=streamer)
C++ API
SentencePiece 可以用于对文本进行分词和去分词。
#include <vector>
#include <iostream>
#include "xfastertransformer.h"
// ChatGLM token ids for prompt "Once upon a time, there existed a little girl who liked to have adventures."
std::vector<int> input(
{3393, 955, 104, 163, 6, 173, 9166, 104, 486, 2511, 172, 7599, 103, 127, 17163, 7, 130001, 130004});
// Assume converted model dir is `/data/chatglm-6b-xft`.
xft::AutoModel model("/data/chatglm-6b-xft", xft::DataType::bf16);
model.config(/*max length*/ 100, /*num beams*/ 1);
model.input(/*input token ids*/ input, /*batch size*/ 1);
while (!model.isDone()) {
std::vector<int> nextIds = model.generate();
}
std::vector<int> result = model.finalize();
for (auto id : result) {
std::cout << id << " ";
}
std::cout << std::endl;
如何运行
建议预加载 libiomp5.so
以获得更好的性能。
- [推荐] 如果已安装 xfastertransformer 的 Python 轮件包,请运行
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
。 - 如果从源代码构建 xFasterTransformer,构建成功后
libiomp5.so
文件将位于3rdparty/mkl/lib
目录中。
单卡
FasterTransformer 会自动检查 MPI 环境,或者您可以使用 SINGLE_INSTANCE=1
环境变量强制禁用 MPI。
多卡
命令行
使用 MPI 以多进程模式运行,请先安装 oneCCL。
-
- 如果您已从源代码构建 xfastertransformer,编译时会安装在 3rdparty 目录下。
source ./3rdparty/oneccl/build/_install/env/setvars.sh
- [推荐] 使用提供的脚本从源代码构建它。
cd 3rdparty sh prepare_oneccl.sh source ./oneccl/build/_install/env/setvars.sh
- 通过安装 Intel® oneAPI Base Toolkit 来安装 oneCCL。(注意:建议使用 2023.x 及以下版本。) 然后通过以下命令源环境变量:
source /opt/intel/oneapi/setvars.sh
- 如果您已从源代码构建 xfastertransformer,编译时会安装在 3rdparty 目录下。
-
以下是在本地的一个示例。
# or export LD_PRELOAD=libiomp5.so manually export $(python -c 'import xfastertransformer as xft; print(xft.get_env())') OMP_NUM_THREADS=48 mpirun \ -n 1 numactl -N 0 -m 0 ${RUN_WORKLOAD} : \ -n 1 numactl -N 1 -m 1 ${RUN_WORKLOAD}
代码
有关更多详细信息,请参阅示例。
Python
model.rank
可以获取进程的 rank,model.rank == 0
是主进程。
对于从进程,在加载模型后,只需执行 model.generate()
。输入和生成配置将自动同步。
model = xfastertransformer.AutoModel.from_pretrained("/data/chatglm-6b-xft", dtype="bf16")
# Slave
while True:
model.generate()
C++
model.getRank()
可以获取进程的 rank,model.getRank() == 0
是主进程。
对于从进程,可以向 model.config()
和 model.input
输入任何值,因为主进程的值将被同步。
xft::AutoModel model("/data/chatglm-6b-xft", xft::DataType::bf16);
// Slave
while (1) {
model.config();
std::vector<int> input_ids;
model.input(/*input token ids*/ input_ids, /*batch size*/ 1);
while (!model.isDone()) {
model.generate();
}
}
Web演示
在存储库中提供了一个基于 Gradio 的网络演示。现在支持 ChatGLM、ChatGLM2 和 Llama2 模型。
- 准备模型.
- 安装依赖项
pip install -r examples/web_demo/requirements.txt
PS:由于模型文件与transformers
版本之间可能存在潜在的兼容性问题,请选择适当的transformers
版本。 - 运行对应于模型的脚本。在启动网络服务器后,在浏览器中打开输出 URL 以使用演示。请指定模型和分词器目录的路径以及数据类型。由于
transformer
的分词器用于编码和解码文本,因此${TOKEN_PATH}
表示 huggingface 模型目录。此演示也支持多进程。
# Recommend preloading `libiomp5.so` to get a better performance.
# or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
python examples/web_demo/ChatGLM.py \
--dtype=bf16 \
--token_path=${TOKEN_PATH} \
--model_path=${MODEL_PATH}
服务
vLLM
已创建 vLLM 的分支以集成 xFasterTransformer 后端,并保持与大多数官方 vLLM 功能的兼容性。有关更多详细信息,请参阅 此链接。
安装
pip install vllm-xft
注意:请勿在环境中同时安装 vllm-xft
和 vllm
。尽管包名不同,但它们实际上会相互覆盖。
兼容OpenAI的服务器
注意:需要预加载 libiomp5.so!
# Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
python -m vllm.entrypoints.openai.api_server \
--model ${MODEL_PATH} \
--tokenizer ${TOKEN_PATH} \
--dtype bf16 \
--kv-cache-dtype fp16 \
--served-model-name xft \
--port 8000 \
--trust-remote-code
对于多进程模式,请使用 python -m vllm.entrypoints.slave
作为从进程,并保持从进程的参数与主进程一致。
# Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
OMP_NUM_THREADS=48 mpirun \
-n 1 numactl --all -C 0-47 -m 0 \
python -m vllm.entrypoints.openai.api_server \
--model ${MODEL_PATH} \
--tokenizer ${TOKEN_PATH} \
--dtype bf16 \
--kv-cache-dtype fp16 \
--served-model-name xft \
--port 8000 \
--trust-remote-code \
: -n 1 numactl --all -C 48-95 -m 1 \
python -m vllm.entrypoints.slave \
--dtype bf16 \
--model ${MODEL_PATH} \
--kv-cache-dtype fp16
FastChat
xFasterTransformer 是 FastChat 的官方推理后端。请参阅 FastChat 中的 xFasterTransformer 和 FastChat 的服务 以获取更多详细信息。
MLServer
提供了一个 MLServer 服务的示例,它支持 REST 和 gRPC 接口以及自适应批处理功能,可以在运行时将推理请求分组在一起。
基准测试
提供了基准脚本以快速获取模型推理性能。
注意:系统和 CPU 配置可能不同。为了获得最佳性能,请尝试根据您的测试环境修改 OMP_NUM_THREADS、数据类型和内存节点数量(使用 numactl -H
检查内存节点)。
支持
- xFasterTransformer 电子邮件:xft.maintainer@intel.com
- xFasterTransformer 微信公众号
已接受论文
- ICLR'2024关于限制/低资源环境下的实用机器学习:在CPU上对大型语言模型的分布式推理性能优化
- ICML'2024关于野外的基础模型:在CPU上对大型语言模型的推理性能优化
- IEEE ICSESS 2024:大型语言模型推理的全能方法
如果xFT对您的研究有用,请引用
@article{he2024distributed,
title={Distributed Inference Performance Optimization for LLMs on CPUs},
author={He, Pujiang and Zhou, Shan and Li, Changqing and Huang, Wenhuan and Yu, Weifei and Wang, Duyi and Meng, Chen and Gui, Sheng},
journal={arXiv preprint arXiv:2407.00029},
year={2024}
}
和
@inproceedings{he2024inference,
title={Inference Performance Optimization for Large Language Models on CPUs},
author={He, Pujiang and Zhou, Shan and Huang, Wenhuan and Li, Changqing and Wang, Duyi and Guo, Bin and Meng, Chen and Gui, Sheng and Yu, Weifei and Xie, Yi},
booktitle={ICML 2024 Workshop on Foundation Models in the Wild}
}
问答
-
问:xFasterTransformer能否在Intel® Core™ CPU上运行?
答:不行。xFasterTransformer需要支持AMX和AVX512指令集,而Intel® Core™ CPU上没有这些指令集。 -
问:xFasterTransformer能否在Windows系统上运行?
答:没有对Windows的原生支持,所有兼容性测试都是在Linux上进行的,因此建议使用Linux。 -
问:通过oneAPI安装最新版本的oneCCL后,在多等级模式下运行程序时程序为什么会冻结或出错?
答:请尝试将oneAPI降级到版本2023.x或以下,或者使用提供的脚本从源代码安装oneCCL。 -
问:为什么使用两个CPU插座运行程序的性能比在单个CPU插座上运行低得多?
答:以这种方式运行会导致程序进行许多不必要的跨插座通信,从而严重影响性能。如果需要跨插座部署,请考虑在每个插座上运行一个等级的多等级模式。 -
问:在单等级模式下运行时性能正常,但为什么使用MPI运行多个等级时性能非常慢且CPU利用率非常低?
答:这是因为通过MPI启动的程序读取了OMP_NUM_THREADS=1
,这不能正确地从环境中检索适当的值。需要根据实际情况手动设置OMP_NUM_THREADS
的值。 -
问:为什么在转换已支持的模型时仍然遇到错误?
答:尝试将transformer
降级到适当的版本,例如在requirements.txt
中指定的版本。这是因为不同的Transformer版本可能会更改某些变量的名称。
项目详情
xfastertransformer_icx-1.8.1-py3-none-any.whl的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | bb534dad5fc976c26306a98b8ff21019ceb389129abd0a36599c357a805cf452 |
|
MD5 | 10889ba3e09e1d2a1444f8b8ba2c6564 |
|
BLAKE2b-256 | c0474a685a1e71bda04c8b382d90afba08827a8c809d91d710bdb7a2172d2672 |