[Feature] Add segmenter (PaddlePaddle#1469)

juncaipeng · web-flow · commit ab87623e2024 · 2021-10-29T11:18:36.000+08:00
diff --git a/configs/segmenter/README.md b/configs/segmenter/README.md
@@ -0,0 +1,16 @@
+# Segmenter: Transformer for Semantic Segmentation
+
+## Reference
+
+> Strudel, Robin, Ricardo Garcia, Ivan Laptev, and Cordelia Schmid. "Segmenter: Transformer for Semantic Segmentation." In Proceedings of the IEEE International Conference on Computer Vision, pp. 7262-7272. 2021.
+
+## Performance
+
+### ADE20k
+
+| Model | Backbone | Head | Patch Size | Resolution | Training Iters | mIoU (slice) | mIoU (flip)  | Links |
+| :-:   | :-:      | :-:  | :-:        | :-:        | :-:            | :-:          | :-:          | :-:  |
+| Segmenter | ViT small | Linear  | 16 | 512*512 | 160000 | 45.48 | 45.69 | [model](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_small_linear_ade20k_512x512_160k/model.pdparams) \| [log](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_small_linear_ade20k_512x512_160k/train.log) \| [vdl](https://www.paddlepaddle.org.cn/paddle/visualdl/service/app/scalar?id=4dc954a9b774e4807c07c511c04ce0f6) |
+| Segmenter | ViT small | Mask    | 16 | 512*512 | 160000 | 45.15 | 45.41 |  [model](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_small_mask_ade20k_512x512_160k/model.pdparams) \| [log](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_small_mask_ade20k_512x512_160k/train.log) \| [vdl](https://www.paddlepaddle.org.cn/paddle/visualdl/service/app/scalar?id=0fdd5191ecec56bbdf08259cc6c32a21) |
+| Segmenter | ViT base  | Linear  | 16 | 512*512 | 160000 | 48.13 | 48.31 |  [model](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_base_linear_ade20k_512x512_160k/model.pdparams) \| [log](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_base_linear_ade20k_512x512_160k/train.log) \| [vdl](https://www.paddlepaddle.org.cn/paddle/visualdl/service/app/index?id=992f38b3f937de87dc74a888d217f53e) |
+| Segmenter | ViT base  | Mask    | 16 | 512*512 | 160000 | 48.49 | 48.61 |  [model](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_base_mask_ade20k_512x512_160k/model.pdparams) \| [log](https://paddleseg.bj.bcebos.com/dygraph/ade20k/segmenter_vit_base_mask_ade20k_512x512_160k/train.log) \| [vdl](https://www.paddlepaddle.org.cn/paddle/visualdl/service/app/scalar?id=16a7380069b6435bdf6e566dcc7f4a6b) |
diff --git a/configs/segmenter/segmenter_vit_base_linear_ade20k_512x512_160k.yml b/configs/segmenter/segmenter_vit_base_linear_ade20k_512x512_160k.yml
@@ -0,0 +1,38 @@
+_base_: '../_base_/ade20k.yml'
+
+batch_size: 2
+iters: 160000
+
+model:
+  type: LinearSegmenter
+  backbone:
+    type: VisionTransformer
+    img_size: 512
+    patch_size: 16
+    embed_dim: 768
+    depth: 12
+    num_heads: 12
+    mlp_ratio: 4
+    qkv_bias: True
+    drop_rate: 0.0
+    drop_path_rate: 0.1
+    final_norm: True
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/pretrained_models/vit_base_patch16_384_augreg.tar.gz
+
+val_dataset:
+  transforms:
+    - type: ResizeByShort
+      short_size: 512
+    - type: Normalize
+
+optimizer:
+  weight_decay: 0.0
+
+lr_scheduler:
+  learning_rate: 0.001
+  end_lr: 1.0e-05
+
+test_config:
+  is_slide: True
+  crop_size: [512, 512]
+  stride: [512, 512]
diff --git a/configs/segmenter/segmenter_vit_base_mask_ade20k_512x512_160k.yml b/configs/segmenter/segmenter_vit_base_mask_ade20k_512x512_160k.yml
@@ -0,0 +1,10 @@
+_base_: './segmenter_vit_base_linear_ade20k_512x512_160k.yml'
+
+model:
+  type: MaskSegmenter
+  h_embed_dim: 768
+  h_depth: 2
+  h_num_heads: 12
+  h_mlp_ratio: 4
+  h_drop_rate: 0.0
+  h_drop_path_rate: 0.1
diff --git a/configs/segmenter/segmenter_vit_small_linear_ade20k_512x512_160k.yml b/configs/segmenter/segmenter_vit_small_linear_ade20k_512x512_160k.yml
@@ -0,0 +1,17 @@
+_base_: './segmenter_vit_base_linear_ade20k_512x512_160k.yml'
+
+model:
+  type: LinearSegmenter
+  backbone:
+    type: VisionTransformer
+    img_size: 512
+    patch_size: 16
+    embed_dim: 384
+    depth: 12
+    num_heads: 6
+    mlp_ratio: 4
+    qkv_bias: True
+    drop_rate: 0.0
+    drop_path_rate: 0.1
+    final_norm: True
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/pretrained_models/vit_small_patch16_384_augreg.tar.gz
diff --git a/configs/segmenter/segmenter_vit_small_mask_ade20k_512x512_160k.yml b/configs/segmenter/segmenter_vit_small_mask_ade20k_512x512_160k.yml
@@ -0,0 +1,10 @@
+_base_: './segmenter_vit_small_linear_ade20k_512x512_160k.yml'
+
+model:
+  type: MaskSegmenter
+  h_embed_dim: 384
+  h_depth: 2
+  h_num_heads: 6
+  h_mlp_ratio: 4
+  h_drop_rate: 0.0
+  h_drop_path_rate: 0.1
diff --git a/paddleseg/models/__init__.py b/paddleseg/models/__init__.py
@@ -44,4 +44,5 @@
 from .segformer import SegFormer
 from .pointrend import PointRend
 from .ginet import GINet
+from .segmenter import *
 from .segnet import SegNet
diff --git a/paddleseg/models/backbones/transformer_utils.py b/paddleseg/models/backbones/transformer_utils.py
@@ -17,7 +17,8 @@
 import paddle.nn.initializer as paddle_init
 
 __all__ = [
-    'to_2tuple', 'DropPath', 'Identity', 'trunc_normal_', 'zeros_', 'ones_'
+    'to_2tuple', 'DropPath', 'Identity', 'trunc_normal_', 'zeros_', 'ones_',
+    'init_weights'
 ]
 
 
@@ -63,3 +64,20 @@ def forward(self, input):
 trunc_normal_ = paddle_init.TruncatedNormal(std=.02)
 zeros_ = paddle_init.Constant(value=0.)
 ones_ = paddle_init.Constant(value=1.)
+
+
+def init_weights(layer):
+    """
+    Init the weights of transformer.
+    Args:
+        layer(nn.Layer): The layer to init weights.
+    Returns:
+        None
+    """
+    if isinstance(layer, nn.Linear):
+        trunc_normal_(layer.weight)
+        if layer.bias is not None:
+            zeros_(layer.bias)
+    elif isinstance(layer, nn.LayerNorm):
+        zeros_(layer.bias)
+        ones_(layer.weight)
diff --git a/paddleseg/models/backbones/vision_transformer.py b/paddleseg/models/backbones/vision_transformer.py
@@ -12,14 +12,17 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import os
+import math
+
 import paddle
 import paddle.nn as nn
 import paddle.nn.functional as F
 import numpy as np
 
 from paddleseg.cvlibs import manager
-from paddleseg.utils import utils
-from paddleseg.models.backbones.transformer_utils import *
+from paddleseg.utils import utils, logger
+from paddleseg.models.backbones.transformer_utils import to_2tuple, DropPath, Identity
 
 
 class Mlp(nn.Layer):
@@ -145,6 +148,7 @@ def forward(self, x):
         return x
 
 
+@manager.BACKBONES.add_component
 class VisionTransformer(nn.Layer):
     """ Vision Transformer with support for patch input
     """
@@ -164,10 +168,11 @@ def __init__(self,
                  drop_path_rate=0.,
                  norm_layer='nn.LayerNorm',
                  epsilon=1e-5,
+                 final_norm=False,
                  pretrained=None,
                  **args):
         super().__init__()
-        self.depth = depth
+        self.img_size = img_size
         self.embed_dim = embed_dim
 
         self.patch_embed = PatchEmbed(
@@ -180,12 +185,10 @@ def __init__(self,
 
         self.pos_embed = self.create_parameter(
             shape=(1, self.pos_w * self.pos_h + 1, embed_dim),
-            default_initializer=paddle.nn.initializer.Constant(value=0.))
-        self.add_parameter("pos_embed", self.pos_embed)
+            default_initializer=paddle.nn.initializer.TruncatedNormal(std=.02))
         self.cls_token = self.create_parameter(
             shape=(1, 1, embed_dim),
             default_initializer=paddle.nn.initializer.Constant(value=0.))
-        self.add_parameter("cls_token", self.cls_token)
         self.pos_drop = nn.Dropout(p=drop_rate)
 
         dpr = np.linspace(0, drop_path_rate, depth)
@@ -204,40 +207,81 @@ def __init__(self,
                 epsilon=epsilon) for i in range(depth)
         ])
 
-        self.norm = eval(norm_layer)(embed_dim, epsilon=epsilon)
+        self.final_norm = final_norm
+        if self.final_norm:
+            self.norm = eval(norm_layer)(embed_dim, epsilon=epsilon)
         self.pretrained = pretrained
         self.init_weight()
 
     def init_weight(self):
         utils.load_pretrained_model(self, self.pretrained)
 
-    def forward_features(self, x):
-        x = self.patch_embed(x)
-        x_shape = paddle.shape(x)
-        pos_embed = self.pos_embed[:, 1:, :]
-        cls_pos_embed = self.pos_embed[:, :1, :]
-        cls_tokens = self.cls_token.expand((x_shape[0], -1, -1))
+        # load and resize pos_embed
+        model_path = self.pretrained
+        if not os.path.exists(model_path):
+            model_path = utils.download_pretrained_model(model_path)
+
+        load_state_dict = paddle.load(model_path)
+        model_state_dict = self.state_dict()
+        pos_embed_name = "pos_embed"
+        if pos_embed_name in load_state_dict.keys():
+            load_pos_embed = paddle.to_tensor(
+                load_state_dict[pos_embed_name], dtype="float32")
+            if self.pos_embed.shape != load_pos_embed.shape:
+                pos_size = int(math.sqrt(load_pos_embed.shape[1] - 1))
+                model_state_dict[pos_embed_name] = self.resize_pos_embed(
+                    load_pos_embed, (pos_size, pos_size),
+                    (self.pos_h, self.pos_w))
+                self.set_dict(model_state_dict)
+                logger.info(
+                    "Load pos_embed and resize it from {} to {} .".format(
+                        load_pos_embed.shape, self.pos_embed.shape))
+
+    def resize_pos_embed(self, pos_embed, old_hw, new_hw):
+        """
+        Resize pos_embed weight.
+        Args:
+            pos_embed (Tensor): the pos_embed weight
+            old_hw (list[int]): the height and width of old pos_embed
+            new_hw (list[int]): the height and width of new pos_embed
+        Returns:
+            Tensor: the resized pos_embed weight
+        """
+        cls_pos_embed = pos_embed[:, :1, :]
+        pos_embed = pos_embed[:, 1:, :]
 
         pos_embed = pos_embed.transpose([0, 2, 1])
-        pos_embed = pos_embed.reshape([1, -1, self.pos_h, self.pos_w])
+        pos_embed = pos_embed.reshape([1, -1, old_hw[0], old_hw[1]])
         pos_embed = F.interpolate(
-            pos_embed, x_shape[2:], mode='bilinear', align_corners=False)
-
+            pos_embed, new_hw, mode='bicubic', align_corners=False)
         pos_embed = pos_embed.flatten(2).transpose([0, 2, 1])
         pos_embed = paddle.concat([cls_pos_embed, pos_embed], axis=1)
-        x = x.flatten(2).transpose([0, 2, 1])
+
+        return pos_embed
+
+    def forward(self, x):
+        x = self.patch_embed(x)
+        x_shape = paddle.shape(x)  # b * c * h * w
+
+        cls_tokens = self.cls_token.expand((x_shape[0], -1, -1))
+        x = x.flatten(2).transpose([0, 2, 1])  # b * hw * c
         x = paddle.concat([cls_tokens, x], axis=1)
-        x = x + pos_embed
 
+        if paddle.shape(x)[1] == self.pos_embed.shape[1]:
+            x = x + self.pos_embed
+        else:
+            x = x + self.resize_pos_embed(self.pos_embed,
+                                          (self.pos_h, self.pos_w), x_shape[2:])
         x = self.pos_drop(x)
+
         res = []
         for idx, blk in enumerate(self.blocks):
             x = blk(x)
+            if self.final_norm and idx == len(self.blocks) - 1:
+                x = self.norm(x)
             res.append(x[:, 1:, :])
-        return res, x_shape
 
-    def forward(self, x):
-        return self.forward_features(x)
+        return res, x_shape
 
 
 @manager.BACKBONES.add_component
diff --git a/paddleseg/models/segmenter.py b/paddleseg/models/segmenter.py
diff --git a/paddleseg/utils/utils.py b/paddleseg/utils/utils.py

-Original file line number
+Diff line change
 +# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
 +#
 +# Licensed under the Apache License, Version 2.0 (the "License");
 +# you may not use this file except in compliance with the License.
 +# You may obtain a copy of the License at
 +#
 +#    http://www.apache.org/licenses/LICENSE-2.0
 +#
 +# Unless required by applicable law or agreed to in writing, software
 +# distributed under the License is distributed on an "AS IS" BASIS,
 +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 +# See the License for the specific language governing permissions and
 +# limitations under the License.
++
 +import paddle
 +import paddle.nn as nn
 +import paddle.nn.functional as F
 +import numpy as np
++
 +from paddleseg.utils import utils
 +from paddleseg.cvlibs import manager, param_init
 +from paddleseg.models.backbones import vision_transformer, transformer_utils
++
 +__all__ = ['LinearSegmenter', 'MaskSegmenter']
++
++
 +@manager.MODELS.add_component
 +class LinearSegmenter(nn.Layer):
 +    '''
 +    The implementation of segmenter with linear head based on PaddlePaddle.
++
 +    The original article refers to Strudel, Robin, et al. "Segmenter: Transformer
 +    for Semantic Segmentation." arXiv preprint arXiv:2105.05633 (2021).
++
 +    Args:
 +        num_classes (int): The unique number of target classes.
 +        backbone (nn.Layer): The backbone transformer network.
 +        pretrained (str, optional): The path or url of pretrained model. Default: None.
 +    '''
++
 +    def __init__(self, num_classes, backbone, pretrained=None):
 +        super().__init__()
 +        self.backbone = backbone
 +        self.head = SegmenterLinearHead(num_classes, backbone.embed_dim)
 +        self.pretrained = pretrained
 +        self.init_weight()
++
 +    def init_weight(self):
 +        if self.pretrained is not None:
 +            utils.load_entire_model(self, self.pretrained)
++
 +    def forward(self, x):
 +        x_shape = paddle.shape(x)
++
 +        feats, shape = self.backbone(x)
 +        logits = self.head(feats[-1], shape[2:])
++
 +        logit_list = [
 +            F.interpolate(logit, x_shape[2:], mode='bilinear')
 +            for logit in logits
 +        ]
++
 +        return logit_list
++
++
 +@manager.MODELS.add_component
 +class MaskSegmenter(nn.Layer):
 +    '''
 +    The implementation of segmenter with mask head based on PaddlePaddle.
++
 +    The original article refers to Strudel, Robin, et al. "Segmenter: Transformer
 +    for Semantic Segmentation." arXiv preprint arXiv:2105.05633 (2021).
++
 +    Args:
 +        num_classes (int): The unique number of target classes.
 +        backbone (nn.Layer): The backbone transformer network.
 +        h_embed_dim (int): The embedding dim in mask head.
 +        h_depth (int): The num of layers in mask head.
 +        h_num_heads (int): The num of heads of MSA in mask head.
 +        h_mlp_ratio (int, optional): Ratio of MLP dim in mask head. Default: 4.
 +        h_drop_rate (float, optional): Drop rate of MLP in mask head. Default: 0.0.
 +        h_drop_path_rate (float, optional): Drop path rate in mask head. Default: 0.0.
 +        h_attn_drop_rate (float, optional): Attenation drop rate in mask head. Default: 0.0.
 +        h_qkv_bias (bool, optional): Whether add bias in mask head. Default: False.
 +        pretrained (str, optional): The path or url of pretrained model. Default: None.
 +    '''
++
 +    def __init__(self,
 +                 num_classes,
 +                 backbone,
 +                 h_embed_dim,
 +                 h_depth,
 +                 h_num_heads,
 +                 h_mlp_ratio=4,
 +                 h_drop_rate=0.0,
 +                 h_drop_path_rate=0.0,
 +                 h_attn_drop_rate=0.0,
 +                 h_qkv_bias=False,
 +                 pretrained=None):
 +        super().__init__()
 +        self.backbone = backbone
 +        self.head = SegmenterMaskHead(
 +            num_classes, backbone.embed_dim, h_embed_dim, h_depth, h_num_heads,
 +            h_mlp_ratio, h_drop_rate, h_drop_path_rate, h_attn_drop_rate,
 +            h_qkv_bias)
 +        self.pretrained = pretrained
 +        self.init_weight()
++
 +    def init_weight(self):
 +        if self.pretrained is not None:
 +            utils.load_entire_model(self, self.pretrained)
++
 +    def forward(self, x):
 +        x_shape = paddle.shape(x)
++
 +        feats, shape = self.backbone(x)
 +        logits = self.head(feats[-1], shape[2:])
++
 +        logit_list = [
 +            F.interpolate(logit, x_shape[2:], mode='bilinear')
 +            for logit in logits
 +        ]
++
 +        return logit_list
++
++
 +class SegmenterLinearHead(nn.Layer):
 +    '''
 +    The linear head of Segmenter.
 +    Args:
 +        num_classes (int): The unique number of target classes.
 +        in_dim (int): The embed dim of input.
 +    '''
++
 +    def __init__(self, num_classes, in_dim):
 +        super().__init__()
 +        self.head = nn.Linear(in_dim, num_classes)
 +        self.apply(transformer_utils.init_weights)
++
 +    def forward(self, x, patch_embed_size):
 +        """ Forward function.
 +        Args:
 +            x (Tensor): Input tensor of decoder.
 +            patch_embed_size (Tensor): The height and width of the patch embed tensor.
 +        Returns:
 +            list[Tensor]: Segmentation results.
 +        """
 +        masks = self.head(x)
++
 +        #[b, (h w), c] -> [b, c, h, w]
 +        h, w = patch_embed_size[0], patch_embed_size[1]
 +        masks = masks.reshape((0, h, w, paddle.shape(masks)[-1]))
 +        masks = masks.transpose((0, 3, 1, 2))
++
 +        return [masks]
++
++
 +class SegmenterMaskHead(nn.Layer):
 +    '''
 +    The mask head of segmenter.
 +    Args:
 +        num_classes (int): The unique number of target classes.
 +        in_dim (int): The embed dim of input.
 +        embed_dim (int): Embedding dim of mask transformer.
 +        depth (int): The num of layers in Transformer.
 +        num_heads (int): The num of heads in MSA.
 +        mlp_ratio (int, optional): Ratio of MLP dim. Default: 4.
 +        drop_rate (float, optional): Drop rate of MLP in MSA. Default: 0.0.
 +        drop_path_rate (float, optional): Drop path rate in MSA. Default: 0.0.
 +        attn_drop_rate (float, optional): Attenation drop rate in MSA. Default: 0.0.
 +        qkv_bias (bool, optional): Whether add bias in qkv linear. Default: False.
 +    '''
++
 +    def __init__(self,
 +                 num_classes,
 +                 in_dim,
 +                 embed_dim,
 +                 depth,
 +                 num_heads,
 +                 mlp_ratio=4,
 +                 drop_rate=0.0,
 +                 drop_path_rate=0.0,
 +                 attn_drop_rate=0.0,
 +                 qkv_bias=False):
 +        super().__init__()
 +        self.num_classes = num_classes
++
 +        self.proj_input = nn.Linear(in_dim, embed_dim)
++
 +        self.cls_token = self.create_parameter(
 +            shape=(1, num_classes, embed_dim),
 +            default_initializer=paddle.nn.initializer.TruncatedNormal(std=0.02))
++
 +        dpr = [x for x in np.linspace(0, drop_path_rate, depth)]
 +        self.blocks = nn.LayerList([
 +            vision_transformer.Block(
 +                dim=embed_dim,
 +                num_heads=num_heads,
 +                mlp_ratio=mlp_ratio,
 +                drop=drop_rate,
 +                drop_path=dpr[i],
 +                attn_drop=attn_drop_rate,
 +                qkv_bias=qkv_bias) for i in range(depth)
 +        ])
++
 +        initializer = paddle.nn.initializer.TruncatedNormal(std=0.02)
 +        self.proj_patch = nn.Linear(
 +            embed_dim,
 +            embed_dim,
 +            weight_attr=paddle.ParamAttr(initializer=initializer),
 +            bias_attr=False)
 +        self.proj_class = nn.Linear(
 +            embed_dim,
 +            embed_dim,
 +            weight_attr=paddle.ParamAttr(initializer=initializer),
 +            bias_attr=False)
++
 +        self.decoder_norm = nn.LayerNorm(embed_dim)
 +        self.mask_norm = nn.LayerNorm(num_classes)
++
 +        self.apply(transformer_utils.init_weights)
++
 +    def forward(self, x, patch_embed_size):
 +        """ Forward function.
 +        Args:
 +            x (Tensor): Input tensor of decoder.
 +            patch_embed_size (Tensor): The height and width of the patch embed tensor.
 +        Returns:
 +            list[Tensor]: Segmentation results.
 +        """
 +        x = self.proj_input(x)
++
 +        cls_token = self.cls_token.expand((paddle.shape(x)[0], -1, -1))
 +        x = paddle.concat([x, cls_token], axis=1)
++
 +        for block in self.blocks:
 +            x = block(x)
 +        x = self.decoder_norm(x)
++
 +        patches, masks = x[:, :-self.num_classes], x[:, -self.num_classes:]
 +        patches = self.proj_patch(patches)
 +        masks = self.proj_class(masks)
 +        patches = patches / paddle.norm(patches, axis=-1, keepdim=True)
 +        masks = masks / paddle.norm(masks, axis=-1, keepdim=True)
++
 +        masks = patches @ masks.transpose((0, 2, 1))
 +        masks = masks.reshape((0, 0,
 +                               self.num_classes))  # For export inference model
 +        masks = self.mask_norm(masks)
++
 +        #[b, (h w), c] -> [b, c, h, w]
 +        h, w = patch_embed_size[0], patch_embed_size[1]
 +        masks = masks.reshape((0, h, w, paddle.shape(masks)[-1]))
 +        masks = masks.transpose((0, 3, 1, 2))
++
 +        return [masks]
-Original file line number
+Diff line change
         logger.warning('Not all pretrained params of {} are loaded, ' \
                        'training from scratch or a pretrained backbone.'.format(model.__class__.__name__))
 +def download_pretrained_model(pretrained_model):
 +    """
 +    Download pretrained model from url.
 +    Args:
 +        pretrained_model (str): the url of pretrained weight
 +    Returns:
 +        str: the path of pretrained weight
 +    """
 +    assert urlparse(pretrained_model).netloc, "The url is not valid."
++
 +    pretrained_model = unquote(pretrained_model)
 +    savename = pretrained_model.split('/')[-1]
 +    if not savename.endswith(('tgz', 'tar.gz', 'tar', 'zip')):
 +        savename = pretrained_model.split('/')[-2]
 +    else:
 +        savename = savename.split('.')[0]
++
 +    with generate_tempdir() as _dir:
 +        with filelock.FileLock(
 +                os.path.join(seg_env.TMP_HOME, savename)):
 +            pretrained_model = download_file_and_uncompress(
 +                pretrained_model,
 +                savepath=_dir,
 +                extrapath=seg_env.PRETRAINED_MODEL_HOME,
 +                extraname=savename)
 +            pretrained_model = os.path.join(pretrained_model,
 +                                            'model.pdparams')
 +    return pretrained_model
 def load_pretrained_model(model, pretrained_model):
     if pretrained_model is not None:
         logger.info('Loading pretrained model from {}'.format(pretrained_model))
 -        # download pretrained model from url
++
         if urlparse(pretrained_model).netloc:
 -            pretrained_model = unquote(pretrained_model)
 -            savename = pretrained_model.split('/')[-1]
 -            if not savename.endswith(('tgz', 'tar.gz', 'tar', 'zip')):
 -                savename = pretrained_model.split('/')[-2]
 -            else:
 -                savename = savename.split('.')[0]
 -            with generate_tempdir() as _dir:
 -                with filelock.FileLock(
 -                        os.path.join(seg_env.TMP_HOME, savename)):
 -                    pretrained_model = download_file_and_uncompress(
 -                        pretrained_model,
 -                        savepath=_dir,
 -                        extrapath=seg_env.PRETRAINED_MODEL_HOME,
 -                        extraname=savename)
+-
 -                    pretrained_model = os.path.join(pretrained_model,
 -                                                    'model.pdparams')
 +            pretrained_model = download_pretrained_model(pretrained_model)
         if os.path.exists(pretrained_model):
             para_state_dict = paddle.load(pretrained_model)