법률 번역: ChatGPT 및 신경망 번역(NMT) 시스템 성능에 대한 심층 검토

42.6K 00

끊임없이 변화하는 번역 기술의 물결 속에서ChatGPT (채팅 생성 사전 학습 트랜스포머)는 의심할 여지 없이 전 세계의 주목을 받고 있습니다. 고급 매크로 언어 모델 (LLM(대규모 언어 모델)) 분야에서 ChatGPT는 인상적인 자연어 처리 능력을 보여주었으며, 일부 번역 작업에서는 전문 번역 도구와 비교해도 손색이 없는 성능을 보여주기도 했습니다. 하지만 높은 수준의 엄격함과 전문성으로 유명한 법률 번역 분야에서 ChatGPT가 과연 현재의 주류 번역 툴을 뒤흔들 수 있을까요? 신경망 기계 번역 (신경망 기계 번역, NMT) 시스템 상태는 어떤가요?

이 백서에서는 ChatGPT-4의 성능을 다음과 같은 측면에서 네 가지 주요 NMT 시스템과 비교한 최근 연구를 자세히 살펴볼 것입니다. 영어-중국어 및 중국어-영어 법률 텍스트 번역 이 연구는 서로 다른 번역 방향에서 두 가지의 성능 차이를 밝힐 뿐만 아니라 서로 다른 번역 방향에서의 성능도 자세히 분석합니다. 이 연구는 서로 다른 번역 방향에서 둘 사이의 성능 차이를 밝힐 뿐만 아니라 다른 번역 방향에서의 성능도 자세히 분석합니다. 용어, 문법 구조 및 스타일 규칙 번역 이러한 영역에서 발생하는 일반적인 오류입니다.

연구 배경: 기계 번역 기술의 발전과 법률 번역의 과제

최근 몇 년 동안 AI 번역 기술은 급속도로 발전해 왔으며, 그 중에서도 신경망 기계 번역 기술이 특히 두드러집니다. 수많은 학자들이 NMT의 연구와 최적화에 전념하며 기술 혁신을 통해 이를 더욱 개선하기 위해 노력하고 있습니다. 기계 번역 Feng과 Zhang (2022)의 연구에서 NMT 기술은 대규모 실용화 단계에 진입했으며, 특히 영-중 번역 분야에서 일반 텍스트의 번역 정확도가 90%를 초과하여 뉴스 보도, 제품 설명, 교통 정보 등과 같은 일상 시나리오의 번역 요구를 완전히 충족시킬 수 있다고 지적했습니다. Li의 (2021) 연구는 또한 5 가지 유형의 신경망 기반 기술을 번역에 사용할 수 있으며 이는 일상 생활의 요구를 충족하는 데 사용할 수 있다고 관찰합니다. Li(2021)의 연구에서도 5가지 유형의 신경망 기반 기술이 번역에 사용될 수 있다고 합니다. 온라인 기계 번역 온라인 기계 번역(OMT) 시스템은 수용 가능한 수준의 번역 품질을 달성했지만, 우수성을 추구하기 위해서는 여전히 개선의 여지가 있습니다.

동시에.매크로 언어 모델 일부 연구에 따르면 특정 번역 작업에서 이미 시중의 일부 전문 번역 플랫폼과 동등하거나 더 나은 성능을 보인다는 결과가 나오는 등 번역 분야에서의 잠재력도 점차 드러나고 있습니다. 예를 들어 Yang(2023)의 연구에 따르면 베트남 법률 텍스트를 번역할 때 ChatGPT가 다른 기계 번역 시스템이나 인간 번역가보다 큰 이점을 보이지 않는 것으로 나타났습니다. 그러나 자연어 처리, 문제 이해, 사용자 상호 작용 분야에서 ChatGPT가 상당한 진전을 이루었으며 구문 복잡성 측면에서도 ChatGPT의 번역 결과가 인간 번역가와 비슷한 수준이었다는 점에 주목할 필요가 있습니다. DeepL 번역 비슷합니다.

그러나 위의 연구들은 대부분 일반적인 말뭉치를 사용했고 번역의 방향도 여러 언어를 다루었으며, 다음 사항에 초점을 맞춘 연구는 거의 없었습니다. ChatGPT 영어-중국어 법률 번역 분야의 구체적인 성능은 말할 것도 없고, 법률 번역 품질 측면에서 ChatGPT와 NMT 시스템의 차이점을 심층적으로 비교한 결과도 없습니다.

글로벌화가 심화되는 상황에서 영-중 법률 번역에 대한 수요는 계속 증가하고 있으며, 현재 가장 진보된 번역 기술인 ChatGPT와 NMT의 장단점을 비교 분석하여 번역 시스템 개선에 유용한 참고 자료를 제공할 뿐만 아니라 법률 번역 실무자가 이러한 기술의 기능의 경계를 더 잘 이해하여 번역 도구를 더 현명하게 선택하고 사용할 수 있도록 도울 것입니다.

이 연구의 목적은 영어-중국어 및 중국어-영어 법률 텍스트 번역에서 ChatGPT-4의 성능을 네 가지 주요 NMT 시스템(Youdao Translator, Baidu Translator, Google Translator, DeepL Translator)과 비교하여 법률 번역 분야에서 ChatGPT-4의 효과를 체계적으로 평가하는 것입니다. 연구의 핵심 쟁점은 다음과 같습니다:

영어-중국어 및 중국어-영어 법률 텍스트 번역에서 ChatGPT와 NMT 시스템 중 어느 쪽이 더 나은 성능을 발휘하나요?
동일한 평가 기준에서 ChatGPT와 NMT 시스템 중 영어-중국어 번역과 중국어-영어 번역에서 어떤 번역 방향이 더 나은 성과를 낼 수 있을까요?
법률 텍스트 번역에서 ChatGPT와 NMT 시스템 각각이 생성하는 일반적인 오류 유형에는 어떤 차이가 있나요?

연구 설계: 엄격한 평가 시스템

연구 결과의 타당성과 신뢰성을 보장하기 위해 다음과 같은 조치를 취했습니다. 소스 텍스트 (소스 텍스트, ST)는 다음 원칙을 엄격하게 준수하여 선정되었습니다:

포괄성선정한 텍스트는 민법, 형사법, 상법, 행정법 등 광범위한 법률 하위 분야를 다루며, 조사 결과를 폭넓게 적용하고 대표성을 갖도록 하기 위해 선정했습니다.
적시성현재 법률 번역의 실제 요구와 과제를 제대로 반영하기 위해 현재 시행 중인 법률 텍스트만 선정했습니다.
다양성다양한 유형의 법률 텍스트에 대한 NMT와 ChatGPT의 번역 품질을 종합적으로 평가하기 위해 구조, 난이도, 문맥 측면에서 다양한 법률 텍스트를 선정했습니다.
진정성선택된 법률 및 규정은 동료 검토를 용이하게 하고 조사 결과의 객관성을 검증하기 위해 공개 출처에서 가져온 것입니다.
참조성선택한 텍스트는 공식 또는 권위 있는 번역을 참조하여 NMT 및 ChatGPT 번역의 품질을 자동으로 평가합니다.

위의 원칙에 따라 연구진은 14개 중국 법률에서 15개의 중국어 원문을 중-영 번역의 원문으로 선정하고 각 원문의 길이를 500자에서 550자 사이로 조절했습니다. 번역 평가의 정확성과 권위를 보장하기 위해 중국 법률 정보 데이터베이스에서 제공하는 공식 영문 번역을 원문으로 사용했습니다. 대상 텍스트 홍콩 법률 텍스트(대상 텍스트, TT)의 참조 번역을 영어-중국어 번역으로 사용했습니다. 마찬가지로 중국어-영어 번역본과 비교하기 위해 홍콩 법률 전자판의 해당 영어 법률 텍스트 15개를 500단어에서 550단어 사이로 길이를 조절하여 영-중 번역본의 원문으로 사용했습니다. 이러한 영어 텍스트의 공식 중국어 버전(역시 홍콩 법률 전자 버전)은 대상 텍스트의 참조 번역으로 사용되었습니다.

연구 방법론 측면에서, 이 연구에서는 ChatGPT-4와 현재 주류 NMT 시스템이 선택되었고 이중 언어 평가 대체 (이중 언어 평가 연구. BLEUBLEU는 국제적으로 사용되는 기계 번역 평가 지표로, 점수가 높을수록 번역 품질이 우수하다는 것을 의미합니다. 연구팀은 각 시스템의 번역 품질을 정량적으로 평가하기 위해 트라이얼 번역 플랫폼에서 제공하는 번역 평가 도구를 사용하여 BLEU 점수를 계산했습니다.

연구의 구체적인 단계는 다음과 같습니다. 먼저 30개의 소스 텍스트를 Youdao Translate, Baidu Translate, Google Translate 및 DeepL 번역과 같은 NMT 시스템으로 가져와 번역하고 ChatGPT-4도 번역에 사용했습니다. 그런 다음 NMT 시스템과 ChatGPT-4에서 생성된 대상 텍스트를 Word 문서로 복사합니다. 그런 다음 '평가판 번역기 - 번역 평가 도구'를 사용하여 대상 텍스트의 BLEU 점수를 계산했습니다. 마지막으로 SPSS 27 통계 소프트웨어를 사용하여 대상 텍스트의 BLEU 값을 통계적으로 분석했습니다.

결과: 정량적 평가 및 통계 분석

중국어-영어 번역 품질 비교

중국어-영어 번역본입니다.평균 BLEU 점수가 가장 낮고 표준 편차가 가장 높은 채팅GPT이는 중국어-영어 법률 번역의 품질이 NMT 시스템보다 낮을 뿐만 아니라 NMT 시스템보다 안정적이지 않다는 것을 보여줍니다.
유튜브 번역 가장 높은 평균 BLEU 점수를 획득했습니다.Google 번역 뒤에서 닫습니다.DeepL 번역 노래로 응답 바이두 번역 점수가 더 가까워졌습니다.
분산 분석 결과에 따르면 시스템 간 BLEU 점수는 다음과 같습니다. 그 차이는 크지 않습니다. (p = 0.119).
그러나 여러 비교 테스트 결과 다음과 같은 사실이 추가로 밝혀졌습니다.ChatGPT와 요도 번역의 주요 차이점또한 NMT 시스템 내에서 바이두 번역과 유다오 번역 사이에는 상당한 차이가 있습니다.
전반적으로 중국어-영어 법률 번역에서 ChatGPT의 품질은 NMT 시스템보다 약간 낮지만 둘 사이의 차이는 유의미한 수준에 이르지 않습니다(p = 0.258).

영어-중국어 번역 품질 비교

영어-중국어 번역본입니다.ChatGPT는 계속해서 평균 BLEU 점수가 가장 낮았고, 요도 번역은 다시 평균 점수가 가장 높았습니다!DeepL 번역기가 아라타 번역기의 뒤를 잇고 있으며, 바이두 번역기와 구글 번역기가 비교적 근소한 차이로 그 뒤를 잇고 있습니다.
각 시스템 점수에 대한 데이터의 첨도 및 스쾌도의 절대값은 1.96보다 큰 것으로 테스트되었으며, 이는 데이터가 정상 분포가 아님.
따라서 이 연구에서는 Kruskal-Wallis 비모수 테스트를 사용했으며 그 결과 다섯 가지 시스템 간에 BLEU 점수가 있는 것으로 나타났습니다. 중요한 차이 (p < 0.001).
두 개씩 비교 분석한 결과, ChatGPT와 나머지 네 가지 NMT 시스템 간의 차이는 모두 유의미한 수준에 도달했으며, 네 가지 NMT 시스템 간의 차이는 다음과 같았습니다. 중요하지 않음.
종합해 보세요.NMT 시스템은 영어-중국어 법률 텍스트를 번역할 때 ChatGPT보다 품질이 훨씬 뛰어납니다..

영어-중국어 및 중국어-영어 번역 품질의 전반적인 비교

독립 표본 t-검정 결과, ChatGPT와 NMT 시스템 모두에서 영어-중국어 및 중국어-영어 번역 방향 간에 번역 품질에 유의미한 차이(p <0.001)가 있는 것으로 나타났습니다.
다음 사항에 주목할 가치가 있습니다.BLEU 점수는 중국어-영어 번역이 영어-중국어 번역보다 훨씬 높았습니다.이는 중국어-영어 법률 번역 작업에서 ChatGPT와 NMT 시스템 모두 더 나은 성능을 보인다는 것을 보여줍니다.

토론: 오류 유형 분석 및 시스템 강점 및 약점

이 연구에서는 법률 텍스트 번역에서 ChatGPT와 NMT 시스템의 성능을 더 깊이 이해하기 위해 사례 연구 방법을 사용하여 법률 텍스트 번역에서 발생하는 오류의 유형을 면밀히 분석했습니다. 이 연구에서는 주요 오류를 용어 번역 오류, 문법 및 구문 구조 오류, 스타일 및 서식 오류의 세 가지 주요 그룹으로 분류했습니다.

중국어-영어 번역 오류 분석

용어법률 용어 번역의 경우 ChatGPT와 NMT 시스템은 비슷한 수준의 정확도를 보이며, 최고와 최악을 구분하기 어렵습니다. 예를 들어 '무기징역'이나 '종신형'과 같은 용어는 두 시스템 모두 정확하게 번역할 수 있습니다. 그러나 "형사 구금"의 번역의 경우 일부 시스템과 "제한된 감금"이라는 참조 사이에 불일치가 있습니다(예: DeepL 에서는 "통제"를 "통제"로 번역). 예를 들어, "통제"를 "통제"로 번역하면 정확도가 약간 떨어집니다.
문법 및 구문 구조각 시스템에는 문법 및 구문 구조 측면에서 고유한 장단점이 있습니다. 예를 들어 "10년 이상의 징역"을 번역할 때 Google 번역의 번역에는 명백한 논리적 오류와 모순이 포함되어 있습니다. "특히 잔인한 방법으로 사람을 사망에 이르게 하거나 중상을 입혀 심각한 장애를 초래"라는 복잡한 문구를 번역할 때 ChatGPT의 번역은 비교적 간결하고 명확하지만 일부 NMT 시스템의 번역은 잠재적으로 모호할 수 있는 반면, Google 번역의 번역은 상대적으로 간결하고 명확합니다.
스타일 및 형식스타일과 형식 측면에서 ChatGPT와 NMT 시스템 모두 명백한 형식 오류를 보이지 않았으며 번역 결과의 구조는 원문과 일관성을 유지하여 기본적으로 법률 문서의 일반적인 형식 요건을 충족했습니다. 그러나 NMT 시스템의 번역 중 일부는 스타일이 약간 부족했는데, 예를 들어 DeepL 에서는 "의도적으로 신체적 상해를 입힌다"를 "의도적으로 신체적 상해를 입힌다"로 번역했는데, 이는 약간 원어 그대로의 번역입니다. 해를 끼치다"로 번역하여 약간 딱딱하고, 바이두 번역에서는 "사람들..."을 사용합니다. 도 법률 영어에서는 비교적 흔하지 않은 표현입니다.

영어-중국어 번역 오류 분석

용어영어-중국어 번역에서 ChatGPT는 법률 용어에 대한 이해도가 다소 떨어집니다. 예를 들어, ChatGPT는 "살인 의도로"를 "살인과 함께"로 번역하는데, 이는 너무 단순하여 원문에 내포된 법적 의도를 적절히 반영하지 못합니다. 또 다른 예로, ChatGPT는 "기소 시 재판이 가능한 범죄에 대한 유죄"를 "기소 가능한 범죄를 저지르다"로 번역하여 "기소(기소)"라는 문구가 원문의 일부가 아니라는 사실을 무시하고 있습니다. "기소"라는 핵심적인 법적 절차 단계를 무시한 것입니다. 이에 비해 NMT 시스템은 중국어와 영어 법률 용어에 대해 보다 정확한 번역 결과를 제공할 수 있습니다.
문법 및 구문 구조NMT 시스템은 문법적 정확성과 문장 구조의 표준화 측면에서 ChatGPT보다 낫습니다. 예를 들어 DeepL 을 "기소 시 유죄 판결을 받을 수 있으며 종신형에 처할 수 있다"를 "기소 시 유죄 판결을 받을 수 있으며 종신형에 처할 수 있다"로 번역할 수 있습니다. 예를 들어 "기소 시 유죄 판결을 받을 수 있으며 종신형에 처할 수 있다"를 "기소 시 유죄 판결을 받을 수 있으며 종신형에 처할 수 있다"로 번역하면 문장 구조가 명확하고 엄격하며 법률 문장의 표현 관습에 부합합니다.
스타일 및 형식법률 텍스트의 일반적인 수정 조항을 번역할 때 NMT 시스템이 더 표준화되어 있고 중국어 법률 텍스트의 표현에 더 가깝습니다.

전반적으로 영어-중국어 법률 번역 작업에서 NMT 시스템은 용어 번역 정확도뿐만 아니라 문법 구조, 직역 정확도, 형식적 표현에서도 더 나은 성능을 보였습니다.

논문 링크:https://tpls.academypublication.com/index.php/tpls/article/view/8692