diff --git a/docs/api/paddle/io/DataLoader_cn.rst b/docs/api/paddle/io/DataLoader_cn.rst
index 35ead287841..cc0cb299c0e 100644
--- a/docs/api/paddle/io/DataLoader_cn.rst
+++ b/docs/api/paddle/io/DataLoader_cn.rst
@@ -40,7 +40,7 @@ DataLoader 当前支持 ``map-style`` 和 ``iterable-style`` 的数据集,``ma
     - **num_workers** (int,可选) - 用于加载数据的子进程个数,若为 0 即为不开启子进程,在主进程中进行数据加载。默认值为 0。
     - **use_buffer_reader** (bool,可选) - 是否使用缓存读取器。若 ``use_buffer_reader`` 为 True,DataLoader 会异步地预读取一定数量(默认读取下一个)的 mini-batch 的数据,可加速数据读取过程,但同时会占用少量的 CPU/GPU 存储,即一个 batch 输入数据的存储空间。默认值为 True。
     - **prefetch_factor** (int,可选) - 缓存的 mini-batch 的个数。若 ``use_buffer_reader`` 为 True,DataLoader 会异步地预读取 ``prefetch_factor`` 个 mini-batch。默认值为 2。
-    - **use_shared_memory** (bool,可选) - 是否使用共享内存来提升子进程将数据放入进程间队列的速度,该参数尽在多进程模式下有效(即 ``num_workers > 0`` ),请确认机器上有足够的共享内存空间(如 Linux 系统下 ``/dev/shm/`` 目录空间大小)再设置此参数。默认为 True。
+    - **use_shared_memory** (bool,可选) - 是否使用共享内存来提升子进程将数据放入进程间队列的速度,该参数仅在多进程模式下有效(即 ``num_workers > 0`` ),请确认机器上有足够的共享内存空间(如 Linux 系统下 ``/dev/shm/`` 目录空间大小)再设置此参数。默认为 True。
     - **timeout** (int,可选) - 从子进程输出队列获取 mini-batch 数据的超时时间。默认值为 0。
     - **worker_init_fn** (callable,可选) - 子进程初始化函数,此函数会被子进程初始化时被调用,并传递 ``worker id`` 作为参数。默认值为 None。
 
diff --git a/docs/api/paddle/nn/KLDivLoss_cn.rst b/docs/api/paddle/nn/KLDivLoss_cn.rst
index fdefb06b710..1b83535a831 100644
--- a/docs/api/paddle/nn/KLDivLoss_cn.rst
+++ b/docs/api/paddle/nn/KLDivLoss_cn.rst
@@ -20,7 +20,7 @@ kL 发散损失计算如下:
 
 当 ``reduction``  为 ``sum`` 时,输出损失的形状为[],输出为所有损失的总和。
 
-当 ``reduction``  为 ``batchmean`` 时,输出损失为[N]的形状,N 为批大小,输出为所有损失的总和除以批量大小。
+当 ``reduction``  为 ``batchmean`` 时,输出损失为[1]的形状,输出为所有损失的总和除以类别数。
 
 参数
 ::::::::::::
diff --git a/docs/api/paddle/nn/Upsample_cn.rst b/docs/api/paddle/nn/Upsample_cn.rst
index a8b3b1a7c54..4261b20ba01 100644
--- a/docs/api/paddle/nn/Upsample_cn.rst
+++ b/docs/api/paddle/nn/Upsample_cn.rst
@@ -155,7 +155,7 @@ https://en.wikipedia.org/wiki/Bicubic_interpolation
     - **mode** (str,可选) - 插值方法。支持"bilinear"或"trilinear"或"nearest"或"bicubic"或"linear"或"area"。默认值为"nearest"。
     - **align_corners** (bool,可选) - 一个可选的 bool 型参数,如果为 True,则将输入和输出 Tensor 的 4 个角落像素的中心对齐,并保留角点像素的值。默认值为 False。
     - **align_mode** (int,可选) - 双线性插值的可选项。可以是 '0' 代表 src_idx = scale *(dst_indx + 0.5)-0.5;如果为'1',代表 src_idx = scale * dst_index。默认值为 0。
-    - **data_format** (str,可选) - 指定输入的数据格式,输出的数据格式将与输入保持一致。对于 3-D Tensor,支持 NCW(num_batches, channels, width)或者 NWC(num_batches, width, channels),对于 4-D Tensor,支持 NCHW(num_batches, channels, height, width) 或者 NHWC(num_batches, height, width, channels),对于 5-D Tensor,支持 NCDHW(num_batches, channels, depth, height, width)或者 NDHWC(num_batches, depth, height, width, channels),默认值:'NCHW'。
+    - **data_format** (str,可选) - 指定输入的数据格式,输出的数据格式将与输入保持一致。对于 3-D Tensor,支持 NCW(num_batches, channels, width)或者 NWC(num_batches, width, channels),对于 4-D Tensor,支持 NCW(num_batches, channels, height, width) 或者 NHWC(num_batches, height, width, channels),对于 5-D Tensor,支持 NCDHW(num_batches, channels, depth, height, width)或者 NDHWC(num_batches, depth, height, width, channels),默认值:'NCHW'。
     - **name** (str,可选) - 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。
 
 返回
diff --git a/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst b/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst
index 1298c143ce3..c42b6ded86a 100755
--- a/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst
+++ b/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst
@@ -6,7 +6,7 @@ adaptive_avg_pool2d
 .. py:function:: paddle.nn.functional.adaptive_avg_pool2d(x, output_size, data_format='NCHW', name=None)
 
 根据输入 `x` , `output_size` 等参数对一个输入 Tensor 计算 2D 的自适应平均池化。输入和输出都是 4-D Tensor,
-默认是以 `NCHW` 格式表示的,其中 `N` 是 batch size, `C` 是通道数,`H` 是输入特征的高度,`H` 是输入特征的宽度。
+默认是以 `NCHW` 格式表示的,其中 `N` 是 batch size, `C` 是通道数,`H` 是输入特征的高度,`W` 是输入特征的宽度。
 
 计算公式如下:
 
diff --git a/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst b/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst
index 1fc1d6fe73e..6d3b8433b37 100644
--- a/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst
+++ b/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst
@@ -30,7 +30,7 @@ GroupSharded 策略可以根据用户配置支持,分别切分模型参数、
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
 GroupSharded hybrid 数据并行策略,在 GroupSharded 并行的基础上再增加一层数据并行逻辑。
-该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU,则则开启 hybrid-dp 至少需要 N*M GPU (N>= 2)。
+该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU,则开启 hybrid-dp 至少需要 N*M GPU (N>= 2)。
 
 GroupSharded-hybrid-dp 适用的场景如下:
 
diff --git a/docs/guides/06_distributed_training/pipeline_parallel_cn.rst b/docs/guides/06_distributed_training/pipeline_parallel_cn.rst
index 630a66f30f8..c2bc350bd3c 100644
--- a/docs/guides/06_distributed_training/pipeline_parallel_cn.rst
+++ b/docs/guides/06_distributed_training/pipeline_parallel_cn.rst
@@ -29,7 +29,7 @@
   :alt: pipeline_timeline2
   :align: center
 
-如上图所示先进行前向计算,再进行反向计算,这种方式我们称之为 F-the-B 模式。不难看出这种 F-then-B 模式由于缓存了多个 micro-batch 的中间变量和梯度,显存的实际利用率并不高。接下来我们介绍一种前向计算和反向计算交叉进行的方式,即 1F1B 模型。在 1F1B 模式下,前向计算和反向计算交叉进行,可以及时释放不必要的中间变量。我们以下图 1F1B 中 stage4 的 F42(stage4 的第 2 个 micro-batch 的前向计算)为例,F42 在计算前,F41 的反向 B41(stage4 的第 1 个 micro-batch 的反向计算)已经计算结束,即可释放 F41 的中间变量,从而 F42 可以复用 F41 中间变量的显存。1F1B 方式相比 F-then-B 方式峰值显存可以节省 37.5%,对比朴素流水线并行峰值显存明显下降,设备资源利用率显著提升。
+如上图所示先进行前向计算,再进行反向计算,这种方式我们称之为 F-then-B 模式。不难看出这种 F-then-B 模式由于缓存了多个 micro-batch 的中间变量和梯度,显存的实际利用率并不高。接下来我们介绍一种前向计算和反向计算交叉进行的方式,即 1F1B 模型。在 1F1B 模式下,前向计算和反向计算交叉进行,可以及时释放不必要的中间变量。我们以下图 1F1B 中 stage4 的 F42(stage4 的第 2 个 micro-batch 的前向计算)为例,F42 在计算前,F41 的反向 B41(stage4 的第 1 个 micro-batch 的反向计算)已经计算结束,即可释放 F41 的中间变量,从而 F42 可以复用 F41 中间变量的显存。1F1B 方式相比 F-then-B 方式峰值显存可以节省 37.5%,对比朴素流水线并行峰值显存明显下降,设备资源利用率显著提升。
 
 .. image:: ./images/pipeline-4.png
   :width: 600
diff --git a/docs/guides/advanced/autograd_cn.rst b/docs/guides/advanced/autograd_cn.rst
index c7ef6153d31..90897d59361 100644
--- a/docs/guides/advanced/autograd_cn.rst
+++ b/docs/guides/advanced/autograd_cn.rst
@@ -275,10 +275,14 @@ PaddlePaddle 的神经网络核心是自动微分,本篇文章主要为你介
 
 .. parsed-literal::
 
-    Tensor a's grad is: [20.]
-    Tensor b's grad is: [8.]
-    Tensor c's grad is: [4.]
-    Tensor d's grad is: [10.]
+    Tensor a's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [20.])
+    Tensor b's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [8.])
+    Tensor c's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [4.])
+    Tensor d's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [10.])
 
 
 该例子的正向和反向图构建过程即:
diff --git a/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md b/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md
index 1a3f2f2f74c..217275b069f 100644
--- a/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md
+++ b/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md
@@ -47,7 +47,7 @@ paddle.utils.run_check()
 
 如果出现 PaddlePaddle is installed successfully!,说明您已成功安装。
 
-* 注:支持基于 Kermel Primitive 算子的昆仑 2 代芯片编译 whl 包,[点击这里查看](https://www.kunlunxin.com.cn)。
+* 注:支持基于 Kernel Primitive 算子的昆仑 2 代芯片编译 whl 包,[点击这里查看](https://www.kunlunxin.com.cn)。
 
 ## 安装方式二:从源码编译支持昆仑 XPU 的包
 
diff --git a/docs/guides/infer/mobile/mobile_index_cn.md b/docs/guides/infer/mobile/mobile_index_cn.md
index 7644d82a96a..0fcacfd09cb 100644
--- a/docs/guides/infer/mobile/mobile_index_cn.md
+++ b/docs/guides/infer/mobile/mobile_index_cn.md
@@ -2,7 +2,7 @@
 
 Paddle-Lite 为 Paddle-Mobile 的升级版,定位支持包括手机移动端在内更多场景的轻量化高效预测,支持更广泛的硬件和平台,是一个高性能、轻量级的深度学习预测引擎。在保持和 PaddlePaddle 无缝对接外,也兼容支持其他训练框架产出的模型。
 
-完整使用文档位于 [Paddle-Lite 文档](https://paddle-lite.readthedocs.io/zh/latest/) 。
+完整使用文档位于 [Paddle-Lite 文档](https://paddlelite.paddlepaddle.org.cn/) 。
 
 ## 特性
 
diff --git a/docs/install/compile/sw-compile.md b/docs/install/compile/sw-compile.md
index a5986884b19..d5f4edefe92 100644
--- a/docs/install/compile/sw-compile.md
+++ b/docs/install/compile/sw-compile.md
@@ -85,7 +85,7 @@
     python3 -m pip install -U(whl 包的名字)
     ```
 
-恭喜,至此您已完成 PaddlePaddle 在 FT 环境下的编译安装。
+恭喜,至此您已完成 PaddlePaddle 在 SW 环境下的编译安装。
 
 ## **验证安装**
 安装完成后您可以使用 `python` 或 `python3` 进入 python 解释器,输入`import paddle` ,再输入
diff --git a/docs/practices/cv/image_classification.ipynb b/docs/practices/cv/image_classification.ipynb
index 304797445a2..33c1917ffae 100644
--- a/docs/practices/cv/image_classification.ipynb
+++ b/docs/practices/cv/image_classification.ipynb
@@ -51,7 +51,7 @@
    },
    "source": [
     "## 二、数据加载\n",
-    "手写数字的MNIST数据集,包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心,图像是固定大小(28x28像素),其值为0到1。该数据集的官方地址为:http://yann.lecun.com/exdb/mnist 。\n",
+    "手写数字的MNIST数据集,包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心,图像是固定大小(28x28像素),其值为0到9。该数据集的官方地址为:http://yann.lecun.com/exdb/mnist 。\n",
     "\n",
     "我们使用飞桨框架自带的 ``paddle.vision.datasets.MNIST`` 完成mnist数据集的加载。"
    ]