mindspore-lab
diff --git a/‎mindocr/data/transforms/layout_transform.py‎
Lines changed: 90 additions & 0 deletions b/‎mindocr/data/transforms/layout_transform.py‎
Lines changed: 90 additions & 0 deletions
diff --git a/‎mindocr/data/transforms/transforms_factory.py‎
Lines changed: 1 addition & 0 deletions b/‎mindocr/data/transforms/transforms_factory.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎mindocr/infer/classification/cls_infer_node.py‎
Lines changed: 3 additions & 2 deletions b/‎mindocr/infer/classification/cls_infer_node.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎mindocr/infer/classification/cls_post_node.py‎
Lines changed: 2 additions & 3 deletions b/‎mindocr/infer/classification/cls_post_node.py‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎mindocr/infer/classification/cls_pre_node.py‎
Lines changed: 1 addition & 1 deletion b/‎mindocr/infer/classification/cls_pre_node.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎mindocr/infer/common/collect_node.py‎
Lines changed: 2 additions & 0 deletions b/‎mindocr/infer/common/collect_node.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎mindocr/infer/common/collect_node2.py‎
Lines changed: 224 additions & 0 deletions b/‎mindocr/infer/common/collect_node2.py‎
Lines changed: 224 additions & 0 deletions
diff --git a/‎mindocr/infer/detection/det_infer_node.py‎
Lines changed: 2 additions & 2 deletions b/‎mindocr/infer/detection/det_infer_node.py‎
Lines changed: 2 additions & 2 deletions
@@ -0,0 +1,90 @@
+import cv2
+import numpy as np
+
+import os
+import sys
+__dir__ = os.path.dirname(os.path.abspath(__file__))
+sys.path.insert(0, os.path.abspath(os.path.join(__dir__, "../../../")))
+
+from mindocr.data.layout_dataset import xyxy2xywh
+
+def letterbox(scaleup):
+    def func(data):
+        image = data["image"]
+        hw_ori = data["raw_img_shape"]
+        new_shape = data["target_size"]
+        color = (114, 114, 114)
+        # Resize and pad image while meeting stride-multiple constraints
+        shape = image.shape[:2]  # current shape [height, width]
+        h, w = shape[:]
+        # h0, w0 = hw_ori
+        h0, w0 = new_shape
+        # hw_scale = np.array([h / h0, w / w0])
+        hw_scale = np.array([h0 / h, w0 / w])
+        if isinstance(new_shape, int):
+            new_shape = (new_shape, new_shape)
+
+        # Scale ratio (new / old)
+        r = min(new_shape[0] / shape[0], new_shape[1] / shape[1])
+        if not scaleup:  # only scale down, do not scale up (for better test mAP)
+            r = min(r, 1.0)
+
+        # Compute padding
+        new_unpad = int(round(shape[1] * r)), int(round(shape[0] * r))
+        dw, dh = new_shape[1] - new_unpad[0], new_shape[0] - new_unpad[1]  # wh padding
+
+        dw, dh = dw / 2, dh / 2  # divide padding into 2 sides
+        hw_pad = np.array([dh, dw])
+
+        if shape[::-1] != new_unpad:  # resize
+            image = cv2.resize(image, new_unpad, interpolation=cv2.INTER_LINEAR)
+        top, bottom = int(round(dh - 0.1)), int(round(dh + 0.1))
+        left, right = int(round(dw - 0.1)), int(round(dw + 0.1))
+        image = cv2.copyMakeBorder(image, top, bottom, left, right, cv2.BORDER_CONSTANT, value=color)  # add border
+
+        data["image"] = image
+        data["image_ids"] = 0
+        data["hw_ori"] = hw_ori
+        data["hw_scale"] = hw_scale
+        data["pad"] = hw_pad
+        return data
+
+    return func
+
+
+def image_norm(scale=255.0):
+    def func(data):
+        image = data["image"]
+        image = image.astype(np.float32, copy=False)
+        image /= scale
+        data["image"] = image
+        return data
+
+    return func
+
+
+def image_transpose(bgr2rgb=True, hwc2chw=True):
+    def func(data):
+        image = data["image"]
+        if bgr2rgb:
+            image = image[:, :, ::-1]
+        if hwc2chw:
+            image = image.transpose(2, 0, 1)
+        data["image"] = image
+        return data
+
+    return func
+
+def label_norm(labels, xyxy2xywh_=True):
+    def func(data):
+        if len(labels) == 0:
+            return data, labels
+
+        if xyxy2xywh_:
+            labels[:, 1:5] = xyxy2xywh(labels[:, 1:5])  # convert xyxy to xywh
+
+        labels[:, [2, 4]] /= data.shape[0]  # normalized height 0-1
+        labels[:, [1, 3]] /= data.shape[1]  # normalized width 0-1
+
+        return data, labels
+    return func
@@ -15,6 +15,7 @@
 from .rec_transforms import *
 from .svtr_transform import *
 from .table_transform import *
+from .layout_transform import *
 
 __all__ = ["create_transforms", "run_transforms", "transforms_dbnet_icdar15"]
 _logger = logging.getLogger(__name__)
 
@@ -39,7 +39,7 @@ def process(self, input_data):
             self.send_to_next_module(input_data)
             return
 
-        data = input_data.data
+        data = input_data.data["cls_pre_res"]
         data = [np.expand_dims(d, 0) for d in data if len(d.shape) == 3]
         data = np.concatenate(data, axis=0)
 
@@ -53,5 +53,6 @@ def process(self, input_data):
             pred = self.cls_model([d])
             preds.append(pred[0])
         preds = np.concatenate(preds, axis=0)
-        input_data.data = {"pred": preds}
+        # input_data.data = {"pred": preds}
+        input_data.data["cls_infer_res"] = {"pred": preds}
         self.send_to_next_module(input_data)
@@ -42,14 +42,14 @@ def process(self, input_data):
             self.send_to_next_module(input_data)
             return
 
-        data = input_data.data
+        data = input_data.data["cls_infer_res"]
         pred = data["pred"]
         output = self.cls_postprocess(pred)
         angles = output["angles"]
         scores = np.array(output["scores"]).tolist()
 
         batch = input_data.sub_image_size
-        if self.task_type.value == TaskType.DET_CLS_REC.value:
+        if self.task_type.value in (TaskType.DET_CLS_REC.value, TaskType.Layout_DET_CLS_REC.value):
             sub_images = input_data.sub_image_list
             for i in range(batch):
                 angle, score = angles[i], scores[i]
@@ -59,5 +59,4 @@ def process(self, input_data):
         else:
             input_data.infer_result = [(angle, score) for angle, score in zip(angles, scores)]
 
-        input_data.data = None
         self.send_to_next_module(input_data)
@@ -36,5 +36,5 @@ def process(self, input_data):
         else:
             sub_image_list = input_data.sub_image_list
             data = [self.cls_preprocesser(split_image)["image"] for split_image in sub_image_list]
-            input_data.data = data
+            input_data.data["cls_pre_res"] = data
             self.send_to_next_module(input_data)
@@ -24,6 +24,8 @@
     TaskType.DET_REC: "pipeline_results.txt",
     TaskType.DET_CLS_REC: "pipeline_results.txt",
     TaskType.LAYOUT: "layout_results.txt",
+    TaskType.LAYOUT_DET_REC: "pipeline_results.txt",
+    
 }
 
 
 
@@ -0,0 +1,224 @@
+import os
+from collections import defaultdict
+from ctypes import c_uint64
+from multiprocessing import Manager
+
+import numpy as np
+
+import os
+import sys
+
+__dir__ = os.path.dirname(os.path.abspath(__file__))
+sys.path.insert(0, os.path.abspath(os.path.join(__dir__, "../../")))
+
+from pipeline.data_process.utils import cv_utils
+from pipeline.tasks import TaskType
+from pipeline.utils import log, safe_list_writer, visual_utils
+from pipeline.datatype import ProcessData, ProfilingData, StopData
+from pipeline.framework.module_base import ModuleBase
+
+RESULTS_SAVE_FILENAME = {
+    TaskType.DET: "det_results.txt",
+    TaskType.CLS: "cls_results.txt",
+    TaskType.REC: "rec_results.txt",
+    TaskType.DET_REC: "pipeline_results.txt",
+    TaskType.DET_CLS_REC: "pipeline_results.txt",
+    TaskType.LAYOUT: "layout_results.txt",
+    TaskType.LAYOUT_DET_REC: "pipeline_results.txt",
+    TaskType.LAYOUT_DET_CLS_REC: "pipeline_results.txt",
+}
+
+
+class CollectNode(ModuleBase):
+    def __init__(self, args, msg_queue, tqdm_info):
+        super().__init__(args, msg_queue, tqdm_info)
+        self.image_sub_remaining = defaultdict(defaultdict)
+        self.image_pipeline_res = defaultdict(defaultdict)
+        self.infer_size = defaultdict(int)
+        self.image_total = Manager().Value(c_uint64, 0)
+        self.task_type = args.task_type
+        self.res_save_dir = args.res_save_dir
+        self.save_filename = RESULTS_SAVE_FILENAME[TaskType(self.task_type.value)]
+
+    def init_self_args(self):
+        super().init_self_args()
+
+    def _collect_stop(self, input_data):
+        self.image_total.value = input_data.image_total
+
+    def _vis_results(self, image_name, image, taskid, data_type, task=None):
+        if self.args.crop_save_dir and (data_type == 0 or (data_type == 1 and self.args.input_array_save_dir)):
+            basename = os.path.basename(image_name)
+            filename = os.path.join(self.args.crop_save_dir, os.path.splitext(basename)[0])
+            box_list = [np.array(x["points"]).reshape(-1, 2) for x in self.image_pipeline_res[taskid][image_name]]
+            crop_list = visual_utils.vis_crop(image, box_list)
+            for i, crop in enumerate(crop_list):
+                cv_utils.img_write(filename + "_crop_" + str(i) + ".jpg", crop)
+
+        if self.args.vis_pipeline_save_dir:
+            basename = os.path.basename(image_name)
+            filename = os.path.join(self.args.vis_pipeline_save_dir, os.path.splitext(basename)[0])
+            box_list = [np.array(x["points"]).reshape(-1, 2) for x in self.image_pipeline_res[taskid][image_name]]
+            text_list = [x["transcription"] for x in self.image_pipeline_res[taskid][image_name]]
+            box_text = visual_utils.vis_bbox_text(image, box_list, text_list, font_path=self.args.vis_font_path)
+            cv_utils.img_write(filename + ".jpg", box_text)
+
+        if self.args.vis_det_save_dir and (data_type == 0 or (data_type == 1 and self.args.input_array_save_dir)):
+            basename = os.path.basename(image_name)
+            filename = os.path.join(self.args.vis_det_save_dir, os.path.splitext(basename)[0])
+            box_list = [np.array(x).reshape(-1, 2) for x in self.image_pipeline_res[taskid][image_name]]
+            box_line = visual_utils.vis_bbox(image, box_list, [255, 255, 0], 2)
+            cv_utils.img_write(filename + ".jpg", box_line)
+
+        if self.args.vis_layout_save_dir and (data_type == 0 or (data_type == 1 and self.args.input_array_save_dir)):
+            basename = os.path.basename(image_name)
+            filename = os.path.join(self.args.vis_layout_save_dir, os.path.splitext(basename)[0])
+            box_list = []
+            for x in self.image_pipeline_res[taskid][image_name]:
+                x, y, dx, dy = x['bbox']
+                box_list.append(np.array([[x, y+dy], [x+dx, y+dy], [x+dx, y], [x, y]]))
+            box_line = visual_utils.vis_bbox(image, box_list, [255, 255, 0], 2)
+            cv_utils.img_write(filename + ".jpg", box_line)
+        # log.info(f"{image_name} is finished.")
+
+    def final_text_save(self):
+        rst_dict = dict()
+        for rst in self.image_pipeline_res.values():
+            rst_dict.update(rst)
+        save_filename = os.path.join(self.res_save_dir, self.save_filename)
+        safe_list_writer(rst_dict, save_filename)
+        # log.info(f"save infer result to {save_filename} successfully")
+
+    def _update_layout_result(self, input_data):
+        taskid = input_data.taskid
+        image_path = input_data.image_path[0]
+        layout_rsts = input_data.data
+        
+        for layout_rst in layout_rsts["layout_collect_res"]:
+            # X, Y = layout_rst.data["raw_img_shape"]
+            layout_bbox = layout_rst.data["layout_result"]
+            lx, ly, _, _ = layout_bbox['bbox']
+            for rec_rst in layout_rst.infer_result:
+                bbox, transcription, score = rec_rst[:-2], rec_rst[-2], rec_rst[-1]
+                bbox = [[b[0]+lx, b[1]+ly] for b in bbox]
+                if score > 0.5:
+                    if self.args.result_contain_score:
+                        self.image_pipeline_res[taskid][image_path].append(
+                            {"transcription": transcription, "points": bbox, "score": str(score)}
+                        )
+                    else:
+                        self.image_pipeline_res[taskid][image_path].append(
+                            {"transcription": transcription, "points": bbox}
+                        )
+
+
+    def _collect_results(self, input_data: ProcessData):
+        taskid = input_data.taskid
+        if self.task_type.value in (TaskType.DET_REC.value, TaskType.DET_CLS_REC.value):
+            image_path = input_data.image_path[0]  # bs=1
+            # print(f"input_data.infer_result:{input_data.infer_result}")
+            for result in input_data.infer_result:
+                # print(f"result:{result}")
+                if result[-1] > 0.5:
+                    if self.args.result_contain_score:
+                        self.image_pipeline_res[taskid][image_path].append(
+                            {"transcription": result[-2], "points": result[:-2], "score": str(result[-1])}
+                        )
+                    else:
+                        self.image_pipeline_res[taskid][image_path].append(
+                            {"transcription": result[-2], "points": result[:-2]}
+                        )
+            if not input_data.infer_result:
+                self.image_pipeline_res[taskid][image_path] = []
+        elif self.task_type.value == TaskType.DET.value:
+            image_path = input_data.image_path[0]  # bs=1
+            self.image_pipeline_res[taskid][image_path] = input_data.infer_result
+        elif self.task_type.value in (TaskType.REC.value, TaskType.CLS.value):
+            for image_path, infer_result in zip(input_data.image_path, input_data.infer_result):
+                self.image_pipeline_res[taskid][image_path] = infer_result
+        elif self.task_type.value == TaskType.LAYOUT.value:
+            for infer_result in input_data.infer_result:
+                image_path = infer_result.pop("image_id")[0]
+                if image_path in self.image_pipeline_res[taskid]:
+                    self.image_pipeline_res[taskid][image_path].append(infer_result)
+                else:
+                    self.image_pipeline_res[taskid][image_path] = [infer_result]
+        elif self.task_type.value in (TaskType.LAYOUT_DET_REC.value, TaskType.LAYOUT_DET_CLS_REC.value,):
+            self._update_layout_result(input_data)
+        else:
+            raise NotImplementedError("Task type do not support.")
+
+        self._update_remaining(input_data)
+
+    def _update_remaining(self, input_data: ProcessData):
+        taskid = input_data.taskid
+        data_type = input_data.data_type
+        # if self.task_type.value in (TaskType.DET_REC.value, TaskType.DET_CLS_REC.value, TaskType.LAYOUT_DET_REC.value):  # with sub image
+        #     for idx, image_path in enumerate(input_data.image_path):
+        #         if image_path in self.image_sub_remaining[taskid]:
+        #             self.image_sub_remaining[taskid][image_path] -= input_data.sub_image_size
+        #             if not self.image_sub_remaining[taskid][image_path]:
+        #                 self.image_sub_remaining[taskid].pop(image_path)
+        #                 self.infer_size[taskid] += 1
+        #                 if self.task_type.value in (TaskType.LAYOUT_DET_REC.value, ):
+        #                     self._vis_results(image_path, input_data.data["layout_images"][idx], taskid, data_type) if input_data.frame else ...
+        #                 else:
+        #                     self._vis_results(
+        #                         image_path, input_data.frame[idx], taskid, data_type
+        #                     ) if input_data.frame else ...
+        #         else:
+        #             remaining = input_data.sub_image_total - input_data.sub_image_size
+        #             if remaining:
+        #                 self.image_sub_remaining[taskid][image_path] = remaining
+        #             else:
+        #                 self.infer_size[taskid] += 1
+        #                 if self.task_type.value in (TaskType.LAYOUT_DET_REC.value, ):
+        #                     self._vis_results(image_path, input_data.data["layout_images"][idx], taskid, data_type) if input_data.frame else ...
+        #                 else:
+        #                     self._vis_results(
+        #                         image_path, input_data.frame[idx], taskid, data_type
+        #                     ) if input_data.frame else ...
+        # else:  # without sub image
+        # if self.task_type.value not in (TaskType.LAYOUT_DET_REC, ):
+        for idx, image_path in enumerate(input_data.image_path):
+            self.infer_size[taskid] += 1
+            if self.task_type.value in (TaskType.LAYOUT_DET_REC.value, ):
+                self._vis_results(image_path, input_data.frame[idx], taskid, data_type) if input_data.frame else ...
+            else:
+                self._vis_results(image_path, input_data.frame[idx], taskid, data_type) if input_data.frame else ...
+
+
+    def process(self, input_data):
+        if isinstance(input_data, ProcessData):
+            # print(f"ProcessData:{input_data.image_path}")
+            taskid = input_data.taskid
+            if input_data.taskid not in self.image_sub_remaining.keys():
+                self.image_sub_remaining[input_data.taskid] = defaultdict(int)
+            if input_data.taskid not in self.image_pipeline_res.keys():
+                self.image_pipeline_res[input_data.taskid] = defaultdict(list)
+            self._collect_results(input_data)
+            if self.infer_size[taskid] == input_data.task_images_num:
+                self.send_to_next_module({taskid: self.image_pipeline_res[taskid]})
+
+        elif isinstance(input_data, StopData):
+            self._collect_stop(input_data)
+            if input_data.exception:
+                self.stop_manager.value = True
+        else:
+            raise ValueError("unknown input data")
+
+        infer_size_sum = sum(self.infer_size.values())
+        if self.image_total.value and infer_size_sum == self.image_total.value:
+            self.final_text_save()
+            self.stop_manager.value = True
+
+    def stop(self):
+        profiling_data = ProfilingData(
+            module_name=self.module_name,
+            instance_id=self.instance_id,
+            process_cost_time=self.process_cost.value,
+            send_cost_time=self.send_cost.value,
+            image_total=self.image_total.value,
+        )
+        self.msg_queue.put(profiling_data, block=False)
+        self.is_stop = True
@@ -32,9 +32,9 @@ def process(self, input_data):
             self.send_to_next_module(input_data)
             return
 
-        data = input_data.data["image"]
+        data = input_data.data["det_pre_res"]["image"]
         pred = self.det_model([data])
 
-        input_data.data = {"pred": pred, "shape_list": input_data.data["shape_list"]}
+        input_data.data["det_infer_res"] = pred
 
         self.send_to_next_module(input_data)
Original file line number	Diff line number	Diff line change
`@@ -24,6 +24,8 @@`
`24`	`24`	`TaskType.DET_REC: "pipeline_results.txt",`
`25`	`25`	`TaskType.DET_CLS_REC: "pipeline_results.txt",`
`26`	`26`	`TaskType.LAYOUT: "layout_results.txt",`
	`27`	`+ TaskType.LAYOUT_DET_REC: "pipeline_results.txt",`
	`28`	`+`
`27`	`29`	`}`
`28`	`30`
`29`	`31`