AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

法律翻訳:ChatGPTとニューラルネットワーク翻訳(NMT)システムの性能に関する詳細なレビュー

刻々と変化する翻訳技術の波の中でチャットGPT (チャット生成 変圧器)は間違いなく世界の注目を集めている。先進的な マクロ言語モデル (大規模言語モデル(Large Language Models:LLM))において、ChatGPTは印象的な自然言語処理能力を発揮しており、いくつかの翻訳タスクでは、そのパフォーマンスはプロの翻訳ツールに匹敵するほどです。しかし、厳密さと専門性の高さで知られる法律翻訳分野において、ChatGPTは現在の主流翻訳ツールを揺るがすことができるのでしょうか? ニューラル機械翻訳 (ニューラル機械翻訳、NMT)システムの状況は?

この論文では、ChatGPT-4と4つの主要なNMTシステムのパフォーマンスを比較した最近の研究を詳しく見ていく。 英中・中英法律文書の翻訳 この研究は、異なる翻訳方向における両者のパフォーマンス差を明らかにするだけでなく、異なる翻訳方向における両者のパフォーマンスを詳細に分析している。本研究は、異なる翻訳方向における両者のパフォーマンス差を明らかにするだけでなく、異なる翻訳方向における両者のパフォーマンスを詳細に分析する。 用語、文法構造、文体の慣例の翻訳 このような分野での典型的なミス。


 

研究の背景:機械翻訳技術の発展と法律翻訳の課題

近年、AI翻訳技術は急速な発展を遂げており、その中でもニューラル機械翻訳技術は特に注目されている。数多くの研究者がニューラル機械翻訳の研究と最適化に力を注いでおり、技術革新を通じてニューラル機械翻訳のさらなる向上に努めている。 機械翻訳 Feng and Zhang (2022)の研究では、NMT技術は大規模な実用化の段階に入り、特に英中翻訳の分野では、通常のテキストの翻訳精度は90%を超え、ニュースレポート、商品説明、交通情報など日常的な場面での翻訳ニーズを十分に満たすことができると指摘されている。また、Li (2021)の研究では、5種類のニューラルネットワークベースの技術が翻訳に使用できることが観察されている。Li氏(2021)の研究はまた、5種類のニューラルネットワークベースの オンライン機械翻訳 オンライン機械翻訳(OMT)システムは、許容可能なレベルの翻訳品質を達成しているが、卓越性を追求するためには、まだ改善の余地がある。

同時に。マクロ言語モデル 翻訳分野での可能性も徐々に見えてきており、ある種の翻訳タスクにおける性能は、すでに市場にあるいくつかの専門的な翻訳プラットフォームと同等か、それ以上であることを示す研究もある。例えば、Yang (2023)の研究では、ChatGPTはベトナムの法律文書の翻訳において、他の機械翻訳システムや人間の翻訳者に比べて大きな優位性を示さなかった。しかし、ChatGPTが自然言語処理、問題理解、ユーザーインタラクションの分野で大きな進歩を遂げ、構文の複雑さの点でも、ChatGPTの翻訳結果は人間の翻訳者や DeepL翻訳 似たようなものだ。

しかし、上記の研究のほとんどは、一般化されたコーパスを使用しており、翻訳の方向性は複数の言語を対象としている。 チャットGPT ChatGPTとNMTシステムの法律翻訳品質の違いについての詳細な比較はもちろんのこと、英中法律翻訳分野特有のパフォーマンス。

グローバリゼーションの進展に伴い、英中法務翻訳の需要は増加の一途をたどっており、ChatGPTとNMTの長所と短所を比較分析することは、現在最先端の翻訳技術として、翻訳システムの改善に役立つだけでなく、法務翻訳に携わる実務者がこれらの技術の能力の限界をよりよく理解し、翻訳ツールをより賢く選択・使用することにもつながる。

本研究の目的は、法律翻訳分野におけるChatGPT-4の有効性を体系的に評価することである。ChatGPT-4と4つの主流NMTシステム(Youdao Translator、Baidu Translator、Google Translator、DeepL Translator)を比較することで、英語-中国語、中国語-英語の法律翻訳におけるChatGPT-4のパフォーマンスを評価する。この研究の核となる論点は以下の通りである:

  • ChatGPTとNMTシステム、英中・中英の法文翻訳ではどちらが優れているか?
  • 同じ評価基準の下で、ChatGPTとNMTシステム間の英中翻訳と中英翻訳では、どちらの翻訳方向が優れているのでしょうか?
  • 法律文書の翻訳において、ChatGPTとNMTのそれぞれのシステムが生み出す典型的な誤りのタイプにはどのような違いがあるのでしょうか?

 

研究デザイン:厳格な評価システム

調査結果の妥当性と信頼性を確保するために、以下のことを行った。 ソーステキスト (原文、ST)は、以下の原則を厳守して選ばれた:

  • 包括性民事法、刑事法、商法、行政法など、幅広い法分野をカバーするテキストを選択。
  • 適時性現在の法律翻訳における実際のニーズと課題を真に反映させるため、現在施行されている法律文書のみが選ばれている。
  • 多様性NMTとChatGPTの様々なタイプの法文に対する翻訳の質を総合的に評価するためです。
  • 信憑性法令については、査読を容易にし、調査結果の客観性を検証するため、一般に公開されている情報源から抜粋している。
  • 参照性NMTとChatGPTの翻訳の品質を自動的に評価するために、選択されたテキストは、公式または権威のある翻訳を参照しています。

上記の原則に基づき、研究者は14の異なる中国法から15の中国語テキストを中英翻訳の原文として選択し、各テキストの長さは500字から550字の間になるように管理した。翻訳評価の正確性と権威を確保するため、中国法情報データベースが提供する公式英訳を原文として使用した。 対象テキスト 英語-中国語翻訳には、香港法テクストの参考訳(ターゲット・テキスト、TT)を使用した。 同様に、中英翻訳との比較のために、香港法の電子版から、長さが500語から550語になるように管理された、対応する15の英文法文を英中翻訳の原文として使用した。これらの英文の公式中国語版(同じく香港法電子版)を、ターゲット・テキストの参考訳として使用した。

研究方法としては、ChatGPT-4と現在主流のNMTシステムを選択し、以下のように使用した。 バイリンガル評価の代替 (バイリンガル評価アンダースタディ。 ブルーBLEUは機械翻訳を評価する指標として国際的に用いられているもので、スコアが高いほど翻訳品質が高いことを意味する。研究チームは、トライアル翻訳プラットフォームが提供する翻訳評価ツールを使用してBLEUスコアを算出し、各システムの翻訳品質を定量的に評価しています。

研究の具体的な手順は以下の通りである:まず、30個の原文をYoudao Translate、Baidu Translate、Google Translate、DeepL TranslateなどのNMTシステムに取り込んで翻訳し、ChatGPT-4も翻訳に使用した。そして、NMTシステムとChatGPT-4で生成されたターゲットテキストをWord文書にコピーする。そして、「Trial Translator - 翻訳評価ツール」を用いて、ターゲットテキストのBLEUスコアを算出した。最後に、ターゲットテキストのBLEU値をSPSS 27統計ソフトを使って統計的に分析した。

 

結果:定量的評価と統計分析

中英翻訳品質比較

  • 中文英訳。ChatGPTは平均BLEUスコアが最も低く、標準偏差が最も高かった。このことは、中英法翻訳の品質がNMTシステムよりも低いだけでなく、NMTシステムよりも安定していないことを示している。
  • Youtube翻訳 が最も高い平均BLEUスコアを達成した。グーグル翻訳 すぐ後ろだ。DeepL翻訳 歌で応える 百度の翻訳 スコアはもっと近い。
  • ANOVAの結果は、システム間のBLEUスコアが 大きな違いはない (p = 0.119).
  • しかし、多重比較検定の結果、次のことが明らかになった。ChatGPTとYodo Translatorの大きな違いさらに、NMTシステムの中で、百度翻訳とYoudao翻訳には大きな違いがある。
  • 全体として、ChatGPTの中英法翻訳の品質は、NMTシステムのそれよりもわずかに低いが、両者の差は有意なレベルには達していない(p = 0.258)。

英中翻訳の品質比較

  • 英中翻訳で。ChatGPTは引き続き平均BLEUスコアが最も低く、Yodo Translatorは再び平均スコアが最も高くなっています!DeepL翻訳者はアラタ翻訳者に続き、百度翻訳者とグーグル翻訳者が比較的近いスコアで続いている。
  • 各システムスコアのデータの尖度と歪度の絶対値は1.96以上であった。 正規分布ではない.
  • そこで、Kruskal-Wallisノンパラメトリック検定を用いたところ、5つのシステム間のBLEUスコアは以下のようになった。 有意差 (p < 0.001).
  • さらに、2対2の比較分析では、ChatGPTと残りの4つのNMTシステムとの差はすべて有意レベルに達した。 軽微.
  • 一緒に考えてみよう。NMTシステムは、ChatGPTよりも英中法文翻訳の品質が格段に高い。.

英中・中英翻訳品質の総合比較

  • 独立標本t検定の結果、ChatGPTシステム、NMTシステムともに、英語-中国語、中国語-英語の翻訳方向で翻訳品質に有意差(p < 0.001)があることが示された。
  • 注目に値するのはBLEUスコアは、中英翻訳の方が英中翻訳よりも有意に高かった。このことは、ChatGPTとNMTシステムの両方が、中英法翻訳タスクでより良いパフォーマンスを発揮することを示している。

 

ディスカッション:エラータイプの分析とシステムの長所と短所

法文翻訳におけるChatGPTシステムとNMTシステムのパフォーマンスをより深く理解するために、本研究ではさらにケーススタディ法を採用し、法文翻訳におけるエラーのタイプを注意深く分析した。この研究では、主なエラーを次の3つの主なグループに分類した:用語の翻訳エラー、文法と構文構造のエラー、スタイルとフォーマットのエラー。

中英翻訳エラー分析

  • 用語法律用語の翻訳では、ChatGPTとNMTの翻訳精度はほぼ同じで、優劣をつけるのは難しい。例えば、「有期懲役」や「無期懲役」といった用語は、どちらのシステムでも正確に翻訳できます。しかし、「刑事拘留」の訳語については、システムによっては、「限定収監」という参照語との間に食い違いがあり、たとえば、DeepLは「管理」を「統制」と訳している。例えば、DeepL は「control」を「管理」と訳しますが、これは正確さにやや欠けます。
  • 文法と構文構造文法や構文構造に関しても、それぞれのシステムには長所と短所があります。例えば、「10年以上の懲役」を翻訳する場合、Google翻訳の翻訳には明らかな論理的誤りや矛盾があります。特に残酷な手段で人を死に至らしめたり、重傷を負わせたりして、重篤な障害をもたらす」という複雑なフレーズを翻訳する場合、ChatGPTの翻訳は比較的簡潔で明快ですが、一部のNMTシステムの翻訳は曖昧になる可能性があります。
  • スタイルと形式スタイルと書式の面では、ChatGPTシステムもNMTシステムも明らかな書式エラーは見られず、翻訳結果の構造は原文と一致しており、基本的に法律文書の典型的な書式要件を満たしている。たとえば、DeepLは「故意に身体的危害を加える」を「故意に身体的危害を加える」と訳していますが、これはやや生硬です。また、Baidu Translateが "the those who... "と訳しているのも、法律英語では比較的珍しい。 も法律英語では比較的珍しい。

英中翻訳エラー分析

  • 用語ChatGPTの英中翻訳では、法律用語の把握がやや正確さに欠ける。例えば、ChatGPTは "with intent to murder "を "以谋杀 "と訳していますが、これは単純すぎて、原文に含意されている法的意図を十分に反映していません。もう一つの例は、ChatGPTが "be guilty of an offence triable upon indictment "を "commit an indictable offence "と訳していることです。"indictment (起訴状) "というフレーズが原文の一部ではないという事実を無視しています。"indictment"(起訴)という重要な法的手続きのステップを無視している。対照的に、NMTシステムは中国語と英語の法律用語の観点から、より正確な翻訳結果を提供することができる。
  • 文法と構文構造文法的な正確さと文構造の標準化という点では、ChatGPTよりもNMTシステムの方が優れている。 DeepLを例にとると、「起訴により裁判にかけられる犯罪の有罪であり、無期懲役の責任を負うものとする」を「起訴により裁判にかけられる犯罪の有罪であり、無期懲役の責任を負うものとする」と訳す。例えば、「shall be guilty of an offence triable upon indictment, and shall be liable to imprisonment for life」を「起訴により裁かれる犯罪の有罪であり、無期懲役の責任を負うものとする」と訳しているが、これは明確で厳格な文章構成であり、法文の表現習慣に沿ったものである。
  • スタイルと形式法文中の一般的な修正条項を翻訳する場合、NMTシステムはより標準化されており、中国の法文表現に近い。

全体として、英中法律翻訳タスクにおいて、NMTシステムは専門用語の翻訳精度を上回るだけでなく、文法構造、直訳精度、形式的表現においても優れた性能を示した。

論文へのリンクhttps://tpls.academypublication.com/index.php/tpls/article/view/8692

無断転載を禁じます:チーフAIシェアリングサークル " 法律翻訳:ChatGPTとニューラルネットワーク翻訳(NMT)システムの性能に関する詳細なレビュー
ja日本語