看了co_ann_report中的第一条数据,搜了PDF原文表格如下所示:

这个数据集中将其解析为:
{'
行号': 42,
'是否重复': False,
'是否跨文件重复': False,
'md5': '0951dff941fedbb0840cc8ed06201431',
'内容': '释义项 本公司、公司、西子洁能 西子电梯 金润香港 杭实集团 西子联合工程 杭锅工锅 杭锅通用 新世纪能源 公司股东大会 公司董事会 公司监事会 《公司法》 《证券法》 证监会 元'}
{'行号': 44,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'eceb6556684d04276841458c5b0e0fa4',
'内容': '指 指 指 指 指 指 指 指 指 指 指 指 指 指 指 指'}
{'行号': 46,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'd1b61f0b2372455bb78f92cc6bead1b3',
'内容': '释义内容 西子清洁能源装备制造股份有限公司 西子电梯集团有限公司 金润(香港)有限公司 杭州市实业投资集团有限公司 浙江西子联合工程有限公司 杭州杭锅工业锅炉有限公司 杭州杭锅通用设备有限公司 杭州新世纪能源环保工程股份有限公司 西子清洁能源装备制造股份有限公司股东大会 西子清洁能源装备制造股份有限公司董事会 西子清洁能源装备制造股份有限公司监事会 《中华人民共和国公司法》 《中华人民共和国证券法》 中国证监会 人民币元 利用燃料或其他能源的热能,把水加热成为热水或蒸汽的机械设'}
{'行号': 48,
'是否重复': False,
'是否跨文件重复': False,
'md5': '946cf48e2b84642c1780c6c96f6435cf',
'内容': '锅炉'}
很难还原表格,还出现了一句话断掉的情况。
如果是按行组织,模型能学到的信息将会非常丰富。目前这个格式,效果就会差很多
看了co_ann_report中的第一条数据,搜了PDF原文表格如下所示:

这个数据集中将其解析为:
很难还原表格,还出现了一句话断掉的情况。
如果是按行组织,模型能学到的信息将会非常丰富。目前这个格式,效果就会差很多