提高CPU平台上的大型语言模型推理性能。

项目描述

xFasterTransformer

xFasterTransformer是针对X86平台上的大型语言模型（LLM）的优化解决方案，类似于GPU平台上的FasterTransformer。xFasterTransformer能够在多个套接字和节点上以分布式模式运行，以支持较大模型的推理。此外，它提供从高级到低级的C++和Python API，易于采用和集成。

xFasterTransformer
- 目录
- 模型概述
  - 模型支持矩阵
  - 支持的数据类型列表
- 文档
- 安装
- 模型准备
- API使用
  - Python API(PyTorch)
  - C++ API
- 如何运行
  - 单卡
  - 多卡
    - 命令行
    - 代码
      - Python
      - C++
- Web演示
- 服务
- 基准测试
- 支持
- 已接受论文
- 问答

模型概述

大型语言模型（LLM）发展非常迅速，并在许多AI场景中得到更广泛的应用。xFasterTransformer是针对Xeon平台上的主流和流行LLM模型推理的优化解决方案。xFasterTransformer充分利用了Xeon平台的硬件能力，实现了LLM推理在单插槽和多个插槽/多个节点上的高性能和高可扩展性。

xFasterTransformer为终端用户提供了一系列API，包括C++和Python，以便直接将其集成到自己的解决方案或服务中。还提供了一系列示例代码来演示使用方法。还提供了基准代码和脚本，供用户展示性能。还提供了流行LLM模型的Web演示。

模型支持矩阵

模型	框架		分布式
	PyTorch	C++
ChatGLM	✔	✔	✔
ChatGLM2	✔	✔	✔
ChatGLM3	✔	✔	✔
GLM4	✔	✔	✔
Llama	✔	✔	✔
Llama2	✔	✔	✔
Llama3	✔	✔	✔
百川	✔	✔	✔
百川2	✔	✔	✔
QWen	✔	✔	✔
QWen2	✔	✔	✔
SecLLM(YaRN-Llama)	✔	✔	✔
优化	✔	✔	✔
Deepseek-coder	✔	✔	✔
gemma	✔	✔	✔
gemma-1.1	✔	✔	✔
codegemma	✔	✔	✔

支持的数据类型列表

FP16
BF16
INT8
W8A8
INT4
NF4
BF16_FP16
BF16_INT8
BF16_W8A8
BF16_INT4
BF16_NF4
W8A8_INT8
W8A8_int4
W8A8_NF4

文档

xFasterTransformer 文档和Wiki提供了以下资源

xFasterTransformer 简介。
C++和PyTorch中高级和低级接口的全面API参考。
xFasterTransformer在C++和PyTorch中的实际API使用示例。

安装

从PyPI

pip install xfastertransformer

使用Docker

docker pull intel/xfastertransformer:latest

使用以下命令运行docker（假设模型文件位于/data/目录）

docker run -it \
    --name xfastertransformer \
    --privileged \
    --shm-size=16g \
    -v /data/:/data/ \
    -e "http_proxy=$http_proxy" \
    -e "https_proxy=$https_proxy" \
    intel/xfastertransformer:latest

注意!!!：在多rank模式下运行时如果出现bus error，请增大--shm-size。默认的docker将共享内存大小限制为64MB，而我们的实现使用许多共享内存以实现更好的性能。

从源码构建

准备环境

手动

PyTorch v2.3（当使用PyTorch API时是必需的，但使用C++ API时则不是必需的。）
```
pip install torch --index-url https://download.pytorch.org/whl/cpu
```
对于GPU，由于DPC++需要ABI=1，xFastTransformer需要从torch==2.3.0+cpu.cxx11.abi在torch-whl-list中获取ABI=1。

安装依赖库

请安装libnuma包

CentOS: yum install libnuma-devel
Ubuntu: apt-get install libnuma-dev

如何构建

使用'CMake'

# Build xFasterTransformer
git clone https://github.com/intel/xFasterTransformer.git xFasterTransformer
cd xFasterTransformer
git checkout <latest-tag>
# Please make sure torch is installed when run python example
mkdir build && cd build
cmake ..
make -j

使用python setup.py

# Build xFasterTransformer library and C++ example.
python setup.py build

# Install xFasterTransformer into pip environment.
# Notice: Run `python setup.py build` before installation!
python setup.py install

模型准备

xFasterTransformer支持与Huggingface不同的模型格式，但与FasterTransformer的格式兼容。

首先下载huggingface格式的模型。
然后，使用xfastertransformer中的模型转换模块将模型转换为xFasterTransformer格式。如果未提供输出目录，则转换后的模型将放置在${HF_DATASET_DIR}-xft中。
```
python -c 'import xfastertransformer as xft; xft.LlamaConvert().convert("${HF_DATASET_DIR}","${OUTPUT_DIR}")'
```
PS：由于模型文件与transformers版本之间可能存在潜在的兼容性问题，请选择适当的transformers版本。

支持模型转换列表
- LlamaConvert
- YiConvert
- GemmaConvert
- ChatGLMConvert
- ChatGLM2Convert
- ChatGLM4Convert
- OPTConvert
- BaichuanConvert
- Baichuan2Convert
- QwenConvert
- Qwen2Convert
- DeepseekConvert

API使用

有关更多详细信息，请参阅API文档和示例。

Python API(PyTorch)

首先，请安装依赖项。

Python依赖项
```
pip install -r requirements.txt
```
PS：由于模型文件与transformers版本之间可能存在潜在的兼容性问题，请选择适当的transformers版本。
oneCCL（对于多rank）
安装oneCCL并设置环境。请参阅准备环境。

xFasterTransformer的Python API与transformers类似，也支持transformers的streamer以实现流式输出。在示例中，我们使用transformers将输入提示编码为token id。

import xfastertransformer
from transformers import AutoTokenizer, TextStreamer
# Assume huggingface model dir is `/data/chatglm-6b-hf` and converted model dir is `/data/chatglm-6b-xft`.
MODEL_PATH="/data/chatglm-6b-xft"
TOKEN_PATH="/data/chatglm-6b-hf"

INPUT_PROMPT = "Once upon a time, there existed a little girl who liked to have adventures."
tokenizer = AutoTokenizer.from_pretrained(TOKEN_PATH, use_fast=False, padding_side="left", trust_remote_code=True)
streamer = TextStreamer(tokenizer, skip_special_tokens=True, skip_prompt=False)

input_ids = tokenizer(INPUT_PROMPT, return_tensors="pt", padding=False).input_ids
model = xfastertransformer.AutoModel.from_pretrained(MODEL_PATH, dtype="bf16")
generated_ids = model.generate(input_ids, max_length=200, streamer=streamer)

C++ API

SentencePiece 可以用于对文本进行分词和去分词。

#include <vector>
#include <iostream>
#include "xfastertransformer.h"
// ChatGLM token ids for prompt "Once upon a time, there existed a little girl who liked to have adventures."
std::vector<int> input(
        {3393, 955, 104, 163, 6, 173, 9166, 104, 486, 2511, 172, 7599, 103, 127, 17163, 7, 130001, 130004});

// Assume converted model dir is `/data/chatglm-6b-xft`.
xft::AutoModel model("/data/chatglm-6b-xft", xft::DataType::bf16);

model.config(/*max length*/ 100, /*num beams*/ 1);
model.input(/*input token ids*/ input, /*batch size*/ 1);

while (!model.isDone()) {
    std::vector<int> nextIds = model.generate();
}

std::vector<int> result = model.finalize();
for (auto id : result) {
    std::cout << id << " ";
}
std::cout << std::endl;

如何运行

建议预加载 libiomp5.so 以获得更好的性能。

[推荐] 如果已安装 xfastertransformer 的 Python 轮件包，请运行 export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')。
如果从源代码构建 xFasterTransformer，构建成功后 libiomp5.so 文件将位于 3rdparty/mkl/lib 目录中。

单卡

FasterTransformer 会自动检查 MPI 环境，或者您可以使用 SINGLE_INSTANCE=1 环境变量强制禁用 MPI。

多卡

命令行

使用 MPI 以多进程模式运行，请先安装 oneCCL。

oneCCL 安装
- 如果您已从源代码构建 xfastertransformer，编译时会安装在 3rdparty 目录下。
```
source ./3rdparty/oneccl/build/_install/env/setvars.sh
```
- [推荐] 使用提供的脚本从源代码构建它。
```
cd 3rdparty
sh prepare_oneccl.sh
source ./oneccl/build/_install/env/setvars.sh
```
- 通过安装 Intel® oneAPI Base Toolkit 来安装 oneCCL。（注意：建议使用 2023.x 及以下版本。） 然后通过以下命令源环境变量：
```
source /opt/intel/oneapi/setvars.sh
```

以下是在本地的一个示例。

# or export LD_PRELOAD=libiomp5.so manually
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
OMP_NUM_THREADS=48 mpirun \
  -n 1 numactl -N 0  -m 0 ${RUN_WORKLOAD} : \
  -n 1 numactl -N 1  -m 1 ${RUN_WORKLOAD}

代码

有关更多详细信息，请参阅示例。

Python

model.rank 可以获取进程的 rank，model.rank == 0 是主进程。
对于从进程，在加载模型后，只需执行 model.generate()。输入和生成配置将自动同步。

model = xfastertransformer.AutoModel.from_pretrained("/data/chatglm-6b-xft", dtype="bf16")

# Slave
while True:
    model.generate()

C++

model.getRank() 可以获取进程的 rank，model.getRank() == 0 是主进程。
对于从进程，可以向 model.config() 和 model.input 输入任何值，因为主进程的值将被同步。

xft::AutoModel model("/data/chatglm-6b-xft", xft::DataType::bf16);

// Slave
while (1) {
    model.config();
    std::vector<int> input_ids;
    model.input(/*input token ids*/ input_ids, /*batch size*/ 1);

    while (!model.isDone()) {
        model.generate();
    }
}

Web演示

在存储库中提供了一个基于 Gradio 的网络演示。现在支持 ChatGLM、ChatGLM2 和 Llama2 模型。

准备模型.
安装依赖项
```
pip install -r examples/web_demo/requirements.txt
```
PS：由于模型文件与transformers版本之间可能存在潜在的兼容性问题，请选择适当的transformers版本。
运行对应于模型的脚本。在启动网络服务器后，在浏览器中打开输出 URL 以使用演示。请指定模型和分词器目录的路径以及数据类型。由于 transformer 的分词器用于编码和解码文本，因此 ${TOKEN_PATH} 表示 huggingface 模型目录。此演示也支持多进程。

# Recommend preloading `libiomp5.so` to get a better performance.
# or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
python examples/web_demo/ChatGLM.py \
                      --dtype=bf16 \
                      --token_path=${TOKEN_PATH} \
                      --model_path=${MODEL_PATH}

服务

vLLM

已创建 vLLM 的分支以集成 xFasterTransformer 后端，并保持与大多数官方 vLLM 功能的兼容性。有关更多详细信息，请参阅此链接。

安装

pip install vllm-xft

注意：请勿在环境中同时安装 vllm-xft 和 vllm。尽管包名不同，但它们实际上会相互覆盖。

兼容OpenAI的服务器

注意：需要预加载 libiomp5.so！

# Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')

python -m vllm.entrypoints.openai.api_server \
        --model ${MODEL_PATH} \
        --tokenizer ${TOKEN_PATH} \
        --dtype bf16 \
        --kv-cache-dtype fp16 \
        --served-model-name xft \
        --port 8000 \
        --trust-remote-code

对于多进程模式，请使用 python -m vllm.entrypoints.slave 作为从进程，并保持从进程的参数与主进程一致。

# Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')

OMP_NUM_THREADS=48 mpirun \
        -n 1 numactl --all -C 0-47 -m 0 \
          python -m vllm.entrypoints.openai.api_server \
            --model ${MODEL_PATH} \
            --tokenizer ${TOKEN_PATH} \
            --dtype bf16 \
            --kv-cache-dtype fp16 \
            --served-model-name xft \
            --port 8000 \
            --trust-remote-code \
        : -n 1 numactl --all -C 48-95 -m 1 \
          python -m vllm.entrypoints.slave \
            --dtype bf16 \
            --model ${MODEL_PATH} \
            --kv-cache-dtype fp16

FastChat

xFasterTransformer 是 FastChat 的官方推理后端。请参阅 FastChat 中的 xFasterTransformer 和 FastChat 的服务以获取更多详细信息。

MLServer

提供了一个 MLServer 服务的示例，它支持 REST 和 gRPC 接口以及自适应批处理功能，可以在运行时将推理请求分组在一起。

基准测试

提供了基准脚本以快速获取模型推理性能。

准备模型.
安装依赖项，包括 oneCCL 和 Python 依赖项。
进入 benchmark 目录并运行 run_benchmark.sh。有关更多信息，请参阅基准 README。

注意：系统和 CPU 配置可能不同。为了获得最佳性能，请尝试根据您的测试环境修改 OMP_NUM_THREADS、数据类型和内存节点数量（使用 numactl -H 检查内存节点）。

支持

xFasterTransformer 电子邮件：xft.maintainer@intel.com
xFasterTransformer 微信公众号

已接受论文

ICLR'2024关于限制/低资源环境下的实用机器学习：在CPU上对大型语言模型的分布式推理性能优化
ICML'2024关于野外的基础模型：在CPU上对大型语言模型的推理性能优化
IEEE ICSESS 2024：大型语言模型推理的全能方法

如果xFT对您的研究有用，请引用

@article{he2024distributed,
  title={Distributed Inference Performance Optimization for LLMs on CPUs},
  author={He, Pujiang and Zhou, Shan and Li, Changqing and Huang, Wenhuan and Yu, Weifei and Wang, Duyi and Meng, Chen and Gui, Sheng},
  journal={arXiv preprint arXiv:2407.00029},
  year={2024}
}

和

@inproceedings{he2024inference,
  title={Inference Performance Optimization for Large Language Models on CPUs},
  author={He, Pujiang and Zhou, Shan and Huang, Wenhuan and Li, Changqing and Wang, Duyi and Guo, Bin and Meng, Chen and Gui, Sheng and Yu, Weifei and Xie, Yi},
  booktitle={ICML 2024 Workshop on Foundation Models in the Wild}
}

问答

问：xFasterTransformer能否在Intel® Core™ CPU上运行？
答：不行。xFasterTransformer需要支持AMX和AVX512指令集，而Intel® Core™ CPU上没有这些指令集。
问：xFasterTransformer能否在Windows系统上运行？
答：没有对Windows的原生支持，所有兼容性测试都是在Linux上进行的，因此建议使用Linux。
问：通过oneAPI安装最新版本的oneCCL后，在多等级模式下运行程序时程序为什么会冻结或出错？
答：请尝试将oneAPI降级到版本2023.x或以下，或者使用提供的脚本从源代码安装oneCCL。
问：为什么使用两个CPU插座运行程序的性能比在单个CPU插座上运行低得多？
答：以这种方式运行会导致程序进行许多不必要的跨插座通信，从而严重影响性能。如果需要跨插座部署，请考虑在每个插座上运行一个等级的多等级模式。
问：在单等级模式下运行时性能正常，但为什么使用MPI运行多个等级时性能非常慢且CPU利用率非常低？
答：这是因为通过MPI启动的程序读取了OMP_NUM_THREADS=1，这不能正确地从环境中检索适当的值。需要根据实际情况手动设置OMP_NUM_THREADS的值。
问：为什么在转换已支持的模型时仍然遇到错误？
答：尝试将transformer降级到适当的版本，例如在requirements.txt中指定的版本。这是因为不同的Transformer版本可能会更改某些变量的名称。

项目详情

发布历史发布通知 | RSS源

本版本

1.8.1

2024年7月31日

1.8.0

2024年7月23日

1.7.3

2024年6月27日

1.7.2

2024年6月18日

1.7.1

2024年6月12日

1.7.0

2024年6月5日

1.6.0.0

2024年5月16日

下载文件

下载适用于您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分发

此版本没有可用的源分发文件。请参阅生成分发存档的教程。

构建分发

xfastertransformer_icx-1.8.1-py3-none-any.whl (26.7 MB 查看散列)

上传 2024年7月31日 Python 3