华东师范大学
飞书用户9886
添加快捷方式
分享
VisCGEC代码总结
输入“/”快速插入内容
VisCGEC代码总结
飞书用户9886
3月10日修改
Overview:
VisCGEC(视觉中文语法纠错)数据集
•
数据集特点
:该数据集旨在解决视觉中文语法纠错问题,包含手写文本图像,并提供了图像的边框信息、识别文本和修正后的文本。数据集共有2,451张图片,涵盖了常见的中文语法错误类型(插入、删除、替换、乱序、不存在错误),适用于手写文本中的语法纠错。
•
基准方法
:采用了两种基准方法进行比较:
◦
两阶段管道
:先进行识别,再进行语法修正。
◦
端到端系统
:用多模态大模型 GPT4-o 直接对图像进行语法纠错。
代码基于unifiedGEC架构:
augmentation:
用来做数据增强的,我们项目没有用
checkpoint:
保存每个模型跑完的结果,训练好模型的参数
‼️重要的checkpoint(经过我们训练好的):
1.
checkpoint/cn_clip_checkpoint
clip_cn_vit-b-16.pt
clip_epoch_latest.pt
dict.txt
2.
checkpoint/yolov8_checkpoint
yolov8_best.pt
dataset
Visual_image:
一句一句的作文小图片
Visual_OCR:
◦
包含:(1)id (2)img_id (3)source_text(百度识别照片转文本) (4) target_text (5)
source_ground_truth(人工核对照片转文本)
◦
trainset.json、validset.json、testset.json
Visual_YOLO_CLIP:
◦
包含:(1)id (2)img_id (3)source_text(YOLO_CLIP识别照片转文本) (4) target_text (5)
source_ground_truth(人工核对照片转文本)
◦
trainset.json、testset.json、validset.json
◦
detect_location
◦
split_image
Visual_text:
◦
包含:(1)id(2)img_id (3)
source_text (人工核对照片转文本)
(4)target_text,
◦
trainset.json、validset.json、testset.json
◦
蓝色部分是一样的
gectoolkit:
模型的配置、数据的加载过程
log
日志文件存放记录
method
gpt4.py:
1.
调用gtp4-o的方法