플라잉 패들 PP-TableMagic: 복잡한 테이블을 위한 구조화된 정보 추출

표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 많은 양의 중요한 표 데이터가 여전히 비정형화된 상태(예: 스캔 문서의 정보 통계표 사진, PDF 재무제표의 데이터 통계표 등)로 존재하며, 이는 자동으로 직접 처리할 수 없습니다. 따라서 양식 인식은 지능형 문서 이해 및 자동 데이터 분석의 적용 시나리오에서 핵심 기술이 되었습니다. 고성능 양식 인식 솔루션은 재무제표 처리, 과학 연구 데이터 분석, 보험금 청구 회계 등의 분야에서 중요한 응용 가치를 가지며 업무 효율성을 크게 향상시키고 인적 오류를 줄일 수 있습니다. 그러나 다양한 애플리케이션 시나리오에서 복잡한 양식 형식에 직면했을 때 기존의 범용 양식 인식 모델은 종종 적응하기 어렵습니다. 이러한 이유로 플라잉 패들은 새로운 테이블 인식 솔루션인 PP-TableMagic을 출시했습니다.

PP-테이블 매직 효과

PP-테이블매직 기술적 분석

현재 기술의 결함

현재 일반적인 표 인식 솔루션은 일반적으로 사용자가 표 이미지를 입력하면 모델이 이미지에서 표의 HTML 구조와 셀 위치를 모두 예측한 다음 이를 완전한 HTML 표로 변환하는 프레임워크를 채택하고 있습니다. 이 솔루션은 일반적인 간단한 테이블 시나리오에서 우수한 예측 성능을 달성하지만 두 가지 문제가 있습니다:

테이블 인식 모델 파라미터의 수는 일반적으로 적고, 테이블 구조 예측과 셀 위치 예측이라는 두 가지 작업은 목표와 종속 피처 의미 계층의 차이가 크며, 공동 최적화에 대한 성능 상한이 있습니다.
사용자가 특정 시나리오에서 모델을 미세 조정할 때 특정 유형의 표 형식 데이터를 미세 조정하면 모델 성능이 '더블 딥', 즉 미세 조정된 표 형식 범주의 성능은 증가하지만 다른 범주의 성능은 감소하여 전체 성능이 증가하지 않고 감소할 수 있습니다.

PP-TableMagic 기술 솔루션 및 원칙

경량 테이블 인식 모델의 성능을 최대한 활용하고 모든 유형의 테이블 데이터에 대한 사용자 맞춤형 미세 조정을 지원하기 위해 PP-TableMagic은 아래 그림과 같은 구조를 채택하고 있습니다:

PP-TableMagic은 듀얼 스트림 아키텍처를 채택하여 테이블을 유선 및 무선 테이블로 나눕니다. 그런 다음 엔드 투 엔드 테이블 인식 작업을 셀 감지와 테이블 구조 인식이라는 두 가지 하위 작업으로 분할하고, 마지막으로 자체 최적화 결과 융합 알고리즘을 통해 완전한 HTML 테이블 예측 결과를 얻습니다. 구체적으로

플라잉 패들 팀은 유선 및 무선 테이블의 고정밀 분류를 위해 자체 경량 테이블 분류 모델 PP-LCNet_x1_0_table_cls를 연구하고 있습니다.
R&D 팀은 업계 최초의 오픈 소스 테이블 셀 감지 모델인 유선 테이블 셀 감지 사전 학습 가중치 RT-DETR-L_wired_table_cell_det과 무선 테이블 셀 감지 사전 학습 가중치 RT-DETR-L_wireless_table을 포함한 RT-DETR-L_table_cell_det을 출시하여 다양한 유형의 테이블 셀을 정확하게 감지할 수 있도록 했습니다. _cell_det을 사용하여 다양한 유형의 테이블 셀을 정확하게 배치할 수 있습니다.
플라잉 패들은 새로운 테이블 구조 인식 모델인 SLANeXt를 도입하여 SLANet 및 SLANet_plus보다 더 나은 테이블 구조 구문 분석을 제공함으로써 보다 정확한 테이블 HTML 구조를 생성합니다.

PP-TableMagic 프레임워크에서는 FeiPaddle에서 개발한 새로운 표 구조 인식 모델인 SLANeXt가 특히 중요합니다. 테이블 구조 인식은 테이블 인식의 가장 중요한 측면이며, 테이블 이미지에서 HTML 표현식까지의 예측은 이미지의 높은 수준의 특징에 의존합니다. 따라서 SLANeXt는 특징 표현 능력이 뛰어난 Vary-ViT-B를 시각적 코더로 사용하고 추출된 특징을 SLAHead에 공급하여 보다 정확한 구조 인식을 달성합니다. 모델 구조 개선과 더불어 학습 전략도 개선되었습니다. 플라잉 패들이 자체 구축한 전체 볼륨 데이터 세트 + 고품질 미세 조정 데이터 세트를 기반으로 유선 테이블과 무선 테이블의 구조 인식 가중치는 새로운 3단계 사전 학습 전략으로 각각 얻어집니다.

SLANeXt의 형태 인식 기능을 평가하기 위해 R&D 팀은 다양한 유형의 데이터 세트를 기반으로 여러 가지 테스트를 수행했습니다. 실험 결과는 다음과 같습니다:

사내의 높은 수준의 양식 인식 검토 세트를 기반으로 합니다:

파트너의 실제 비즈니스 데이터를 기반으로 합니다:

실험 결과에 따르면 SLANeXt는 SLANet_plus에 비해 성능이 크게 향상되었습니다.

알고리즘 애플리케이션

PP-TableMagic을 사용하면 뛰어난 HTML 테이블 예측 기능을 활용하여 테이블을 직접 작업할 수 있을 뿐만 아니라, 그 구조를 최대한 활용하여 맞춤형 모델 미세 조정이 가능합니다.

불량 사례에 대해 다른 엔드투엔드 양식 인식 모델을 미세 조정할 때, 이러한 유형의 데이터만 수집할 수 있는 경우 대규모 학습 집합을 구축하기 어려워 모델 성능이 향상되기는커녕 저하되는 '하나에 대한 다른 하나' 현상이 발생하는 경우가 많습니다.

또한 엔드투엔드 테이블 인식 모델을 미세 조정하려면 학습 데이터의 테이블 구조와 셀 위치에 동시에 주석을 달아야 하는데, 이는 대부분의 애플리케이션 시나리오에서 시간과 노동력이 많이 소요되는 작업입니다.

PP-TableMagic의 다중 모델 네트워크 아키텍처를 사용하면 특정 유형의 테이블의 성능을 개선해야 할 경우 가장 중요한 모델 하나만 미세 조정하면 되므로 다른 유형의 테이블의 인식 성능에 미치는 영향을 최소화할 수 있습니다.

따라서 실제 시나리오에서 PP-TableMagic을 기반으로 미세 조정할 때 각 테이블 유형의 인식 성능은 서로 거의 영향을 미치지 않을뿐만 아니라 데이터 주석도 해당 범주 만 표시하면되므로 많은 인력을 절약 할 수 있습니다.

코딩 기술이 뛰어난 개발자의 경우, PP-TableMagic의 아키텍처를 브랜치 수준에서 직접 조정할 수 있습니다. 아래 그림과 같이 특정 유형의 테이블 데이터가 매우 중요하다고 판단되면 별도의 브랜치를 설정하여 처리할 수 있으며, 이를 통해 전체 테이블 인식 기능을 크게 향상시킬 수 있습니다.

PP-TableMagic은 다양한 애플리케이션 시나리오에서 최고의 테이블 인식 성능을 달성하기 위해 뛰어난 성능과 높은 사용자 지정 및 높은 수준의 자유도 높은 타겟 모델 미세 조정을 지원하며, 모든 시나리오에서 높은 사용자 지정이 가능한 최초의 테이블 인식용 오픈 소스 솔루션입니다.

시작하기

마운팅

패들패들을 설치합니다:

# CPU 版本
python -m pip install paddlepaddle==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
# GPU 版本，需显卡驱动程序版本 ≥450.80.02（Linux）或 ≥452.39（Windows）
python -m pip install paddlepaddle-gpu==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# GPU 版本，需显卡驱动程序版本 ≥545.23.06（Linux）或 ≥545.84（Windows）
python -m pip install paddlepaddle-gpu==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/

패들엑스 휠 패키지를 설치합니다:

pip install https://paddle-model-ecology.bj.bcebos.com/paddlex/whl/paddlex-3.0.0rc0-py3-none-any.whl

빠른 경험

PP-TableMagic을 직접 호출할 수 있습니다.

패들엑스는 몇 줄의 코드만으로 모델 예측을 경험할 수 있는 사용하기 쉬운 Python API를 제공합니다.
테스트 이미지를 다운로드합니다:

https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/table_recognition_v2.jpg

패들엑스는 명령줄 또는 Python 스크립트(패들엑스에서는 table_recognition_v2 제품 라인으로 표시됨)를 통해 PP-TableMagic 호출을 지원합니다.

명령줄 방법:

paddlex --pipeline table_recognition_v2 
--use_doc_orientation_classify=False 
--use_doc_unwarping=False 
--input table_recognition.jpg 
--save_path ./output 
--device gpu:0

파이썬 스크립트 메서드:

from paddlex import create_pipeline
pipeline = create_pipeline(pipeline="table_recognition_v2")
output = pipeline.predict(
input="table_recognition.jpg",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
)
for res in output:
res.print()
res.save_to_img("./output/")
res.save_to_xlsx("./output/")
res.save_to_html("./output/")
res.save_to_json("./output/")

사용 후 인식 결과는 지정된 경로에 저장됩니다.

보조 개발

PP-TableMagic의 효과에 만족하신다면 생산 라인에서 직접 고성능 추론, 서비스 배포 또는 엔드 사이드 배포를 수행할 수 있습니다. 테이블 시나리오가 특히 수직적이고 여전히 최적화의 여지가 있는 경우, 자체 시나리오의 데이터를 기반으로 PP-TableMagic에서 하나 또는 여러 모델을 대상으로 2차 개발을 수행하여 PP-TableMagic의 맞춤형 미세 조정 이점을 최대한 활용할 수 있도록 PaddleX를 사용할 수도 있습니다. 패들엑스의 편리한 2차 개발 기능을 활용하면 딥러닝의 기본 원리를 이해하고 요구 사항에 따라 장면 데이터를 준비한 후 명령을 실행하여 모델 반복을 완료할 필요 없이 통합된 명령을 사용하여 데이터 검증, 모델 훈련 및 평가 추론을 완료할 수 있습니다. 여기에서는 무선 테이블 셀 감지 모델 RT-DETR-L_wireless_table_cell_det의 2차 개발 프로세스를 보여줍니다:

python main.py -c paddlex/configs/modules/table_cells_detection/RT-DETR-L_wireless_table_cell_det.yaml 
-o Global.mode=train 
-o Global.dataset_dir=./path_to_your_datasets

다른 모든 모델은 보조 개발을 지원하므로 자세한 내용을 참조하세요:

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md#4-%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91

서비스 지향 배포

패들엑스는 테이블 인식의 추론 기능을 서비스로 캡슐화하고 클라이언트가 테이블 추론 결과에 대한 웹 요청을 통해 이러한 서비스에 액세스할 수 있도록 함으로써 PP-TableMagic의 서비스 배포 기능도 제공합니다.

패들엑스는 기본 서비스 배포와 안정성이 높은 서비스 배포라는 두 가지 유형의 서비스 배포를 제공합니다. 기본 서비스 배포는 개발 비용이 적게 드는 간단하고 사용하기 쉬운 서비스 배포 솔루션으로, 사용자가 신속하게 배포하고 결과를 디버깅할 수 있습니다. 고안정성 서비스 배포는 더 높은 안정성을 제공하고 더 높은 성능을 제공하는 NVIDIA Triton 추론 서버를 기반으로 합니다.

PP-TableMagic에 대한 자세한 내용은 패들엑스 공식 생산 라인 문서를 참조하세요:

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md