Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fix some translation errors in zh/1_58_llm_extreme_quantization.md #2380

Open
wants to merge 2 commits into
base: main
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 2 additions & 2 deletions zh/1_58_llm_extreme_quantization.md
Original file line number Diff line number Diff line change
Expand Up @@ -598,13 +598,13 @@ BitNet 在与基准方法相比表现出色,特别是在较低比特数情况

## 使用的算子和测试标准

为了从 BitNet 低精度权重中受益,我们将它们打包成一个`int8` 张量(这使得参数数量从 80 B降至 28 B!)。在推理过程中,这些权重在执行矩阵乘法之前必须进行解包。我们在 Cuda 和 Triton 中实现了自定义内核,以处理矩阵乘法过程中的即时解包。对于矩阵乘法本身,我们采用了缓存分块矩阵乘法技术。为了充分理解这种方法,让我们首先回顾一些 Cuda 编程基础知识。
为了从 BitNet 低精度权重中受益,我们将它们打包成一个`int8` 张量(这使得参数数量从 8 B降至 2.8 B!)。在推理过程中,这些权重在执行矩阵乘法之前必须进行解包。我们在 Cuda 和 Triton 中实现了自定义内核,以处理矩阵乘法过程中的即时解包。对于矩阵乘法本身,我们采用了缓存分块矩阵乘法技术。为了充分理解这种方法,让我们首先回顾一些 Cuda 编程基础知识。

### 基础的GPU概念: 线程, 块, 和共享内存

在深入了解缓存分块矩阵乘法之前,了解一些基本的 GPU 概念是很重要的:

- **线程(thread)和块(block)**:GPU 同时执行成千上万个线程。这些线程被分组成块,每个块独立运行。网格由这些块(grid)组成,代表整个程序空间。例如,在矩阵乘法中,每个线程可能负责计算输出矩阵的一个单元。
- **线程(thread)和块(block)**:GPU 同时执行成千上万个线程。这些线程被分组成块,每个块独立运行。网格(grid)由这些块(block)组成,代表整个问题空间。例如,在矩阵乘法中,每个线程可能负责计算输出矩阵的一个单元。
- **共享内存(share memory)**:每个块都可以访问有限量的共享内存,比全局内存(global memory, GPU 上的主内存)要快得多。然而,共享内存大小有限,并在块内的所有线程之间共享。有效利用共享内存是提高 GPU 程序性能的关键。

### 矩阵乘法中的挑战
Expand Down