「的」vs「地」

最近の新しい翻訳者を見ていると、一つ気になることがあります。

それは ”的””地” の使い分けをしないこと。

日本の文法教育で育った身としてはきっちり使い分けたいのですが、「実際にはあまり使い分けていない」「学校ではどちらでもいいと教わった」という話もあり、難しいところです。

それに百度などでWebサイトを検索すると、確かに使い分けない用法が多分に見受けられるのです。WeiboやWeChatといったカジュアルなコンテンツでは、その傾向は特に顕著になります。

はてさて、翻訳者・翻訳会社としてはこの使い分けを切り捨てても良いものでしょうか。

# 形態素解析で検証

こんなときのためにスクレイピングをしておいた、「習近平主席重要講話データベース」を活用します。天下の人民網が掲載する、国家主席のスピーチの原稿であれば、誤字誤用の可能性はかなり低いといえるでしょう。

このテキストをPythonのjiebaで形態素に分割し、 ”地” の助詞的用法をしている部分を抽出してみます。

重要講話は1000以上あるのですが、形態素解析は時間がかかるので、とりあえず100件ほどに対して実行してみました。具体的には下記のコードを実行します。

import os
import jieba.posseg as pseg
from collections import defaultdict

list_di = []

files = os.listdir("./texts/")

for file in files[0:100]:
    phrases = [""] * 5
    if (file.endswith(".txt")):
        f = open(f"./texts/{file}", "r", encoding="utf-8")
        lines = f.readlines()
        for line in lines:
            fen_cixing = pseg.cut(line)
            found = False
            di_flag = ""
            for word, flag in fen_cixing:
                phrases.append(word)
                phrases.pop(0)
                if found:
                    list_di.append([file, "".join(phrases), di_flag])
                    found = False
                
                if "地" in word:
                    if flag == "uv" or flag == "l":
                        found = True
                        di_flag = flag
        f.close()

print("地:{}件".format(len(list_di)))
print(list_di)

”地” を含む形態素があり、なおかつその品詞が uv(助詞)l(慣用表現) であった場合、foundフラグを立てます。 foundフラグTrue の際は、その形態素から数えて5つ前までのテキストを表示します。

なぜこのようにしているかというと、 ”地” 単独で uv(助詞) であると判定するケース( ”历史地分析” )と複数の文字で l(慣用表現) であると判定するケース(”静止地看待”)が混在していたためです。

最初はここで躓きました。。。まだ他のケースをカバーしきれていないかもしれませんが、とりあえず下記のような結果を得ることができました。

地:57[['0007.txt', '具体、历史地分析', 'uv'], ['0007.txt', ',更加能动地推进', 'uv'], ['0007.txt', ',十分精辟地阐明', 'uv'], ['0007.txt', '上层建筑需要相应地不断', 'uv'], ['0007.txt', ',不能孤立地静止地', 'uv'], ['0007.txt', '不能孤立地静止地看待', 'l'], ['0012.txt', ',有针对性地实施', 'uv'], ['0013.txt', '优势更加充分地发挥', 'uv'], ['0015.txt', '流光溢彩……祖国各地一派', 'l'], ['0017.txt', '。他饶有兴趣地听', 'uv'], ['0017.txt', '习近平饱含深情地说', 'uv'], ['0020.txt', ',更加坚定地把', 'uv'], ['0022.txt', ',由常住地供给', 'uv'], ['0025.txt', '同志就满怀信心地说', 'uv'], ['0028.txt', ',尽可能快地增加', 'uv'], ['0033.txt', '强,相应地建章立制', 'uv'], ['0034.txt', '!向来自世界各地的', 'l'], ['0034.txt', '打造开放新高地。', 'uv'], ['0034.txt', '。我高兴地得知', 'uv'], ['0035.txt', '!向来自世界各地的', 'l'], ['0035.txt', '打造开放新高地。', 'uv'], ['0035.txt', '。我高兴地得知', 'uv'], ['0042.txt', '信众的汇集地,', 'uv'], ['0042.txt', '、亚历山大等地的', 'uv'], ['0043.txt', '大米,意味深长地说道', 'uv'], ['0043.txt', '资源。我国人多地少的', 'l'], ['0046.txt', '时代特点,生动活泼地开展', 'uv'], ['0047.txt', '将士们气愤地说', 'uv'], ['0047.txt', ',立意新颖地提出', 'uv'], ['0047.txt', ',并痛心地指出', 'uv'], ['0047.txt', '坚持不懈,持之以恒地常抓不懈', 'uv'], ['0047.txt', '、阆州等地。', 'uv'], ['0049.txt', '的交汇之地,', 'uv'], ['0049.txt', '聚集活跃之地。', 'uv'], ['0052.txt', '基础不牢,地动山摇。', 'l'], ['0052.txt', '也是要地动山摇的', 'l'], ['0052.txt', '联系。全心全意地为', 'uv'], ['0053.txt', '要更加紧密地团结起来', 'uv'], ['0054.txt', '要更加紧密地团结起来', 'uv'], ['0060.txt', '我们更加紧密地团结', 'uv'], ['0063.txt', '开幕词中豪迈地说', 'uv'], ['0070.txt', '三峡坝区等地,', 'uv'], ['0070.txt', '、社区等地作', 'uv'], ['0070.txt', ',“被动地”', 'uv'], ['0070.txt', ',“主动地”', 'uv'], ['0070.txt', '不仅仅是沿江各地党委和', 'l'], ['0070.txt', ',更加有效地动员', 'uv'], ['0081.txt', '一部较为全面地反映', 'uv'], ['0083.txt', ',完善足球场地等', 'uv'], ['0084.txt', '我们党不断地进行', 'uv'], ['0084.txt', '今后还经常地进行', 'uv'], ['0085.txt', ',总书记深情地说', 'uv'], ['0086.txt', ',强化军地合力', 'uv'], ['0087.txt', '的前头英勇地牺牲', 'uv'], ['0087.txt', '同志们继续地保持', 'uv'], ['0087.txt', '同志们继续地保持', 'uv'], ['0096.txt', ',死生之地,', 'uv']]

# ”地”はやっぱり必要

一つずつ細かく見てみると、”社区等地” ”活跃之地”や ”地动山摇” といったノイズも含まれてしまっていますが、おおむね正しく抽出できているように見えます。

そして100ファイル中に50件程度あるということは、やはりフォーマルな文書では 「使い分けをするべき」 だと言えると思います。

# PR

pythonで自然言語処理を始めるのに最適な本を紹介します。

ゴールデンブリッジでは、
翻訳・通訳・インバウンドツアー・国際会議運営など
ご用命をお待ちしております!
また、翻訳に関わるツール・ソフトウェアの開発等についてもお気軽にお声掛けください。

株式会社ゴールデンブリッジ 公式Webサイト