VisCGEC代码总结

飞书用户9886

3月10日修改

Overview：

VisCGEC（视觉中文语法纠错）数据集

•
数据集特点：该数据集旨在解决视觉中文语法纠错问题，包含手写文本图像，并提供了图像的边框信息、识别文本和修正后的文本。数据集共有2,451张图片，涵盖了常见的中文语法错误类型（插入、删除、替换、乱序、不存在错误），适用于手写文本中的语法纠错。​

•
基准方法：采用了两种基准方法进行比较：​
◦
两阶段管道：先进行识别，再进行语法修正。​
◦
端到端系统：用多模态大模型 GPT4-o 直接对图像进行语法纠错。​

common.docs_name - LarkCCM_Docs_Menu_Image

代码基于unifiedGEC架构：

augmentation：

用来做数据增强的，我们项目没有用

checkpoint：

保存每个模型跑完的结果，训练好模型的参数

‼️重要的checkpoint（经过我们训练好的）：

1.
checkpoint/cn_clip_checkpoint​
clip_cn_vit-b-16.pt​
clip_epoch_latest.pt​
dict.txt​

2.
checkpoint/yolov8_checkpoint​
yolov8_best.pt​

dataset

Visual_image：

一句一句的作文小图片

Visual_OCR：​
◦
包含：（1）id （2）img_id  （3）source_text（百度识别照片转文本） （4） target_text  （5）source_ground_truth（人工核对照片转文本）​
◦
trainset.json、validset.json、testset.json​

Visual_YOLO_CLIP：​
◦
包含：（1）id （2）img_id  （3）source_text（YOLO_CLIP识别照片转文本） （4） target_text  （5）source_ground_truth（人工核对照片转文本）​
◦
trainset.json、testset.json、validset.json​
◦
detect_location​
◦
split_image​

Visual_text：​
◦
包含：（1）id（2）img_id （3）source_text （人工核对照片转文本）（4）target_text，​
◦
trainset.json、validset.json、testset.json​
◦
蓝色部分是一样的​

gectoolkit:

模型的配置、数据的加载过程

log

日志文件存放记录

method

gpt4.py:

1.
调用gtp4-o的方法 ​

VisCGEC代码总结​

VisCGEC代码总结