在 RNN 中,对于长度为 T 的序列,在反向传播过程中会产生长度为 级别的矩阵乘法链,在较大的 T 值的情况下可能会产生梯度消失或者梯度爆炸;

因此在工程上我们可以将梯度向量的模长限制在一个合适的半径范围内,例如 ;具体的数学操作如下:

这样的数学操作叫做梯度裁剪