跳转到主要内容

Intel® Extension for PyTorch*

项目描述

Intel® Extension for PyTorch*

CPU 💻主分支   |   🌱快速开始   |   📖文档   |   🏃安装   |   💻LLM示例
GPU 💻主分支   |   🌱快速开始   |   📖文档   |   🏃安装   |   💻LLM示例

英特尔® PyTorch* 扩展通过添加最新的功能优化,提升了在英特尔硬件上的性能。优化利用了英特尔® 高级矢量扩展 512 (英特尔® AVX-512) 矢量神经网络指令 (VNNI) 和英特尔® 高级矩阵扩展 (英特尔® AMX) 在英特尔 CPU 上的性能,以及英特尔 Xe 矩阵扩展 (XMX) AI 引擎在英特尔独立 GPU 上的性能。此外,英特尔® PyTorch* 扩展通过 PyTorch* xpu 设备提供了英特尔独立 GPU 的简单 GPU 加速。

ipex.llm - 大型语言模型 (LLMs) 优化

在当前技术环境中,生成式人工智能 (GenAI) 工作负载和模型受到了广泛关注和欢迎。大型语言模型 (LLMs) 已经成为推动这些 GenAI 应用的大规模模型。从 2.1.0 版本开始,英特尔® PyTorch* 引入了针对某些 LLM 模型的特定优化。请查看 LLM 优化 以获取详细信息。

优化模型列表

模型系列 模型名称 (Huggingface hub) FP32 BF16 静态量化 INT8 权重仅量化 INT8 权重仅量化 INT4
LLAMA meta-llama/Llama-2-7b-hf 🟩 🟩 🟨 🟩 🟨
LLAMA meta-llama/Llama-2-13b-hf 🟩 🟩 🟩 🟩 🟩
LLAMA meta-llama/Llama-2-70b-hf 🟩 🟩 🟩 🟩 🟩
LLAMA meta-llama/Meta-Llama-3-8B 🟩 🟩 🟨 🟩 🟨
LLAMA meta-llama/Meta-Llama-3-70B 🟩 🟩 🟨 🟩 🟩
LLAMA meta-llama/Meta-Llama-3.1-8B-Instruct 🟩 🟩 🟨 🟩 🟩
GPT-J EleutherAI/gpt-j-6b 🟩 🟩 🟩 🟩 🟩
GPT-NEOX EleutherAI/gpt-neox-20b 🟩 🟨 🟨 🟩 🟨
DOLLY databricks/dolly-v2-12b 🟩 🟨 🟨 🟩 🟨
FALCON tiiuae/falcon-7b 🟩 🟩 🟩 🟩
FALCON tiiuae/falcon-11b 🟩 🟩 🟩 🟩 🟨
FALCON tiiuae/falcon-40b 🟩 🟩 🟩 🟩 🟩
OPT facebook/opt-30b 🟩 🟩 🟩 🟩 🟨
OPT facebook/opt-1.3b 🟩 🟩 🟩 🟩 🟨
Bloom bigscience/bloom-1b7 🟩 🟨 🟩 🟩 🟨
CodeGen Salesforce/codegen-2B-multi 🟩 🟩 🟩 🟩 🟩
Baichuan baichuan-inc/Baichuan2-7B-Chat 🟩 🟩 🟩 🟩 🟨
Baichuan baichuan-inc/Baichuan2-13B-Chat 🟩 🟩 🟨 🟩 🟨
Baichuan baichuan-inc/Baichuan-13B-Chat 🟩 🟨 🟩 🟩 🟨
ChatGLM THUDM/ChatGLM3-6b 🟩 🟩 🟨 🟩 🟨
ChatGLM THUDM/ChatGLM2-6b 🟩 🟩 🟩 🟩 🟨
GPTBigCode bigcode/starcoder 🟩 🟩 🟨 🟩 🟨
T5 google/flan-t5-xl 🟩 🟩 🟨 🟩
MPT mosaicml/mpt-7b 🟩 🟩 🟩 🟩 🟩
Mistral mistralai/Mistral-7B-v0.1 🟩 🟩 🟨 🟩 🟨
Mixtral mistralai/Mixtral-8x7B-v0.1 🟩 🟩 🟩 🟨
Stablelm stabilityai/stablelm-2-1_6b 🟩 🟩 🟨 🟩 🟨
Qwen Qwen/Qwen-7B-Chat 🟩 🟩 🟨 🟩 🟨
Qwen Qwen/Qwen2-7B 🟩 🟩 🟨 🟩 🟨
LLaVA liuhaotian/llava-v1.5-7b 🟩 🟩 🟩 🟩
GIT microsoft/git-base 🟩 🟩 🟩
Yuan IEITYuan/Yuan2-102B-hf 🟩 🟩 🟨
Phi microsoft/phi-2 🟩 🟩 🟩 🟩 🟨
Phi microsoft/Phi-3-mini-4k-instruct 🟩 🟩 🟨 🟩 🟨
Phi microsoft/Phi-3-mini-128k-instruct 🟩 🟩 🟨 🟩 🟨
Phi microsoft/Phi-3-medium-4k-instruct 🟩 🟩 🟨 🟩 🟨
Phi microsoft/Phi-3-medium-128k-instruct 🟩 🟩 🟨 🟩 🟨
Whisper openai/whisper-large-v2 🟩 🟩 🟩 🟩
  • 🟩 表示模型可以很好地运行,并且准确度较高(与 FP32 相比差异小于 1%)。

  • 🟨 表示模型可以很好地运行,但准确度可能不是完美的(与 FP32 相比差异大于 1%)。

注意:上述验证的模型(包括同一模型系列中的其他模型,如 LLAMA 系列中的 "codellama/CodeLlama-7b-hf")都得到了很好的支持,包括所有优化,如间接访问 KV 缓存、融合 ROPE 和预打包 TPP 线性(fp32/bf16)。我们正在努力更好地支持表中各种数据类型的模型。此外,未来还将优化更多模型。

此外,自 2.3.0 版本发布以来,英特尔® PyTorch* 引入了模块级优化 API(原型功能)。该功能为几个常用 LLM 模块和针对特定或定制 LLM 的优化提供了优化替代方案。请阅读 LLM 模块级优化实践 以更好地了解如何优化您的 LLM 并实现更好的性能。

支持

团队使用 GitHub 问题 跟踪错误和增强请求。在提交建议或错误报告之前,请搜索现有 GitHub 问题以查看您的问题是否已被报告。

许可证

Apache 许可证,版本 2.0。如 LICENSE 文件所示。

安全

请参阅英特尔的安全中心安全中心获取有关如何报告潜在的安全问题或漏洞的信息。

另请参阅:安全策略

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

此版本没有可用的源代码分发文件。请参阅生成分发存档的教程

构建分发

由以下支持