TOEIC900点超えのエキスパートの主観的評価で機械翻訳は4.5に

3年前に「2019年にはTOEIC800点相当の機械翻訳へ」という発言をしたところ、堀江貴文氏に次のようなコメントをいただきました。
「Googleには太刀打ちできないだろう」
勝てる、勝てないという話をよく言われるのですが、YouTubeをはじめとしてGoogleにはたくさんのユーザーがいます。したがって、ホリゾンタル(水平的)に攻めても無理です。バーティカル(垂直的)に闘うしかないと考えています。どういうことかというと、広くあらゆる業界や一般に対応する翻訳を展開するのではなく、特定の業界や言語に特化して、深く掘り下げた翻訳に専念することです。それがバーティカルです。

みらい翻訳ではTOEIC 900点を超えるエキスパートと機械に日英の翻訳をさせて、それを3人~5人のエキスパートが見て「どちらの翻訳が優れているか?」5点満点で主観評価を実施している。3はなんとか意味が通じる、4はよい、5はプロと変わらないレベルの翻訳であるという。

栄藤氏は、この2年間で翻訳の精度が変化したことを数字で説明した。

この2年間で、評価の数字が3.5から現在は4.5と上がりました。私は音声認識の研究も経験していますが、ある限界を超えないと機械翻訳はおもちゃに過ぎません。コンピューターの翻訳は使えない、ということが数年前のみなさんの常識だったのではないでしょうか。しかし、機械翻訳は現在、クリティカルポイントを超えました。

飛躍的に翻訳精度が上がった理由には、ニューラルネットワークによるディープラーニングの登場があった。2014年に論文が発表され、2016年にGoogleがサービスを開始したことにより大きく変化した。

現在、直訳に関しては人間より機械の方が優れているという。ビジネスコミュニケーションでは、英→日は人間が4.45、機械が4.31のスコアである。ところが日→英では、人間が4.18、機械が4.22で、機械による翻訳が人間を上回っている。2015年に画像認識が人間の眼を超えた。直訳に関していえば、機械翻訳の精度が高まり、日本語から英語への直訳では人間を超えている。

単語分割をする形態素分析からベクトルによる文脈の解析へ

とはいえ、GAFA(Google、Amazon、Facebook、Apple)に勝てるのだろうか?

機械学習のために使うデータが重要です。データがあるところでは勝ち、データがないところでは負けます。Git Hubなどを利用して、グローバルで同時競争している状態です。

翻訳の技術的方法も変わりつつある。かつて翻訳などの自然言語処理をする場合には、単語を分割する「形態素分析」から、最適な文章として並べ替える方法が一般的だった。2年前の2016年まで、10年もの間、統計的文節並び替えを自動学習する機械翻訳が信じられてきた。ところが最近は、抽象化のレベルを上げることによって文章をベクトル表現する。

翻訳のために言語を処理するとき、単語に区切らないんですよ。驚きました。いわゆる形態素解析をしないんです。これが最初は、なかなか納得できなかったですね。しかし、形態素解析をしないことで性能が格段に上がっています。それを達成したのがNMT(ニューラル・マシン・ネットワーク)です。

翻訳の手法は統計的手法から抽象化へ、ベクトルが変わっている。NMTつまり深層学習による翻訳は、インプットの単語を並べ替えるのではなく、ある特徴量に変えた後で日本語や中国語に変換する。この方法であれば「彼 校 行 た」という日本語も「He went school.」のように伝わる英語に翻訳することが可能だ。

「西郷さんが北薩摩の東郷村に来たとき、住民がくれた犬が“ツン”という犬である」という文章も「When Saigo came to village in Satsuma, the dog given by the residents is called “TSUN(THUNK)”」と訳すことができる。「花子さんはペンを買ったが、翌日なくなった」という文章は、これまで「Hanako is gone(花子さんが亡くなった)」と翻訳されていた。しかし「Hanako bought a pen, but it was gone the next day.」のように、前後の関係からきちんと翻訳できるようになった。業界と組んで、100回翻訳させて98回の翻訳が使えるようになれば、翻訳者が不要になるという。

現在、4.5の翻訳精度を4.8に上げるように努力しているところです。面白いのは、何を入力しても安倍首相風になるような日-日変換ができたり、英-英変換のように拙い英語をきちんとした英語にしたり、同一言語の変換も可能なことですね。

しかしながら、京都弁のような含みのある意味は翻訳できない。

京都弁で「お宅のお嬢さんピアノ上手にならはったなあ」は、実は「お宅のお嬢さんの弾くピアノが毎日うるさくてたまらん。静かにしてもらえないか」という皮肉で、本来なら「I hear your daughter’s piano every day and It’s noisy. Don’t bother me, or be quiet.」と翻訳してほしいところです。ところがお嬢さんをほめる直訳しかできません(笑)

対話のアーキテクチャ

機械翻訳というと「アルゴリズムがあればいい」ということをよく聞きますが、そんなことはありません。現場でどこまで磨き上げるか。そのことによって違ってきます。みらい翻訳のステークホルダーにSYSTRANという会社がありますが「We Speak Your Industry’s Language.」というメッセージを掲げています。これがバーティカル(垂直)の攻め方です。業界の言い回しなどに特化すればGAFAに勝てる、と。

賢いアルゴリズムを考えるだけではダメですね。あっという間にコモディティ化します。しかし、業界ごとにきちんと企業と組んで、データの相互利用の了承を得ることができれば、強みを発揮できます。そうすることにより直訳の場合は、翻訳エラー2%が実現可能です。テクニカルの面では、翻訳者によるポストエディットのいらない世界が、ほとんどすぐそこまでやってきています。

現在は翻訳の評価は4.5ですが、4.8の世界もみえてきたと述べる。しかし、そのためには新語、文脈、コミュニティの対応が必要である。現在のところ1文ごとに処理をしているが、文章全体から翻訳する世界もすぐ近くまでやってきているという。とはいえ、それは直訳であり、文章の意味については一切考えていない。

2011年に私はNTTドコモに勤めていましたが、私たちが開発した、しゃべってコンシェルとAppleのSiriを比較したことがありました。しゃべってコンシェルは「どこに外注したの?」とよく訊かれるのですが、すべて内製化で作りました。

しゃべってコンシェルを作った経験から、対話のアーキテクチャを自然言語処理(NLP)だけ抜き出すと、「何に関する質問か?」をDomain Chooserが選び、「何を訊いているのか」というタスクを「Task Identifier」、必要な情報を「Shallow Parser」が抜き出して「Composer」で回答を作るという流れです。しゃべってコンシェルを作っていた当時、自分ではAIを作っているという意識はありませんでした。しかし、このアーキテクチャはどの企業でも変わりません。

基本的な制御はAIML(Artificial Intelligence Markup Language)という方法を使っています。「20世紀の中盤に使われたFortranをまだ使っているのか」と思う方もいるでしょう。それでも動きます。コトバデザインでも、AIMLに機械学習を組み合わせています。

チューリングテストでは、1991年から続いている「Loebner Prize(ローブナー賞)」が最も有名ですが、ここでもAIMLを実装したマシンが活躍しています。ガラス細工のように精度を磨き上げると、チューリングテストで優勝します。実際にすべてルールベースのシステムが2016~2018年で3連覇しています。「Mituku」といい、あたかも人間のように答えるわけです。その会話を壁の向こうで観ていると、2~4割は「これは人間じゃないか?」と騙されるほどの成功をおさめました。深層学習のアンチテーゼとして、このような例も挙げておきます。

サールの「中国人の部屋」もよく引用されます。イギリス人が中にいて中国語に翻訳します。すると部屋の外には「おお、すごい。中国人がいるぞ」と勘違いするわけです。しかし、中にいるのはマニュアル通りに翻訳しているだけのイギリス人です。

現在のAIは結局のところ、この「中国人の部屋」のレベルでしかありません。NMTを使おうがルールベースだろうが、意味論までは到達していないのですが、多くの方は「なんだかAIって凄いよね」と思っています。

2年ごとに訪れる技術の波

栄藤氏はNMTには「End to Endへの夢」があるという。入力を「Encoder」と「Decoder」を経由して出力するとき、入力されるxi、生成されるyiの差が最小になるようにすることである。このxとyが数千万、数億あると人間よりも性能のいい機械翻訳ができる。

それでは対話でEnd to Endの美しい世界が実現できるだろうか。栄藤氏は、いずれはできるようになるかもしないが、大きな問題があると述べた。それは単純な対話に複数の質問が入ってくることである。

対話では{xi, qi, yi}というように、3個の組み合わせになります。xiが本文であり、qiが本文に関する質問の部分、yiが答えの部分です。このように多様なため、翻訳の世界と対話の世界では複雑さが極端に違います。

対話のアーキテクチャは、7~8年前には20世紀後半の技術で作っていた。しかし、「どの領域にある質問なのか」「どういうことを訊いているのか」「キーワードは何か」という部分に深層学習を使うことによって性能が上がっている。Siri、Googleアシスタント、Alexaのいずれもアーキテクチャに共通性があり、最近では深層学習が使われている。一方、栄藤氏は次のようにも指摘した。

深層学習は便利ですが、現場からみると「無理して深層学習を使わなくてもいいのでは」という考え方もあります。サポートベクターマシンは古い技術ですが、この技術が出てきたときには感激しました。えっ!このサンプル数で動くのか、と。

ここ数年、音声処理の技術は劇的に変化している。栄藤氏は2000年頃にはNTTドコモで分散音声認識という、携帯電話で認識させるのではなく、バックエンドのサーバーで認識させる研究開発をしていた。ところが当時は「音声インプットをする携帯電話なんて、ぜったい失敗する」と言われていたという。それはDNN(ディープ・ニューラル・ネットワーク)が生まれた頃だった。

しばらくして、2012年頃に多層CNNが実用化の閾値を越えた。ある閾値を越えると急に見える世界が違ってくると栄藤氏は述べた。

多層画像認識では2015年頃に精度が上がり、あとは時系列画像をどうするのかという領域に入ってきています。機械翻訳に関してはLSTMは一文機械翻訳ではかなり性能が上がりました。とはいえ、これも古い技術となってしまいました。

およそ2年ごとに技術の大きな波がきていると感じます。そろそろ次の波がくるのではないでしょうか。想像はできませんが何かがくるはずです。

同時に、次のように冷静に指摘した。

深層学習をするAIがありますが、私からみれば自立的学習をするのはすべてAIであり、所詮サールの「中国人の部屋」の問題は解決していません。「えっ。深層学習じゃないんですか?」とバカにされることがありますが、私は特に深層学習にこだわりはありません。

身体性と五感の統合からブレイクスルーが生まれる

栄藤氏は今後重要になるのは「身体性」だと強調した。知能の本質は環境との相互作用にあるということが言われている。身体を持たない知能はないのではないか、という問いである。

知能が最初で身体ができたわけではありません。身体という物理的な制約のなかで、いろいろなことをやります。

近い話でいえば、ヘレン・ケラーの有名なエピソードでしょう。触覚により、水は冷たい「ウォーター」という記号(シンボル)であることを認識した感動的な瞬間はまさに身体性の重要さを示しています。

今後に関して、過去や現在から予見される将来はAIに関しては該当しないとの考えを示した。AIに関しては「将来から将来を予見しなければダメではないか」という見解である。

パターン認識のコミュニティの中では、10年前にいまのような世界になることがとても想像できませんでした。2年後の世界は、もっと違うのではないかと思っています。予測すること自体が無理です。

定形タスクによるルーティンワークの機械翻訳は、2016~2017年の間に人間を超えた。今後は文脈を考慮したり、通訳(逐次時間翻訳)を達成したりするだろうと見解を述べた。また、Google-Duplexのように深層学習が進歩することによって、サブタスクがEnd to End化していくと予想した上で、とはいえルールベースは残るという考えも示した。

研究側の期待としては「五感の統合」がブレイクスルーを生むのではないか、と考えています。ぜひ大学では、取り組んでいただきたい課題です。また、ビジネスとしては「AI≠賢い万能アルゴリズム」という認識が必要です。賢い万能アルゴリズムがAIの本質ではありません。

ベストプラクティスを選ぶのがAIであり、ビジネスのドメインで専門家の参加が必須になります。そして、AIをみんなが扱える「AIの民主化」が今後のキーワードになっていくでしょう。そのためにクラウドが存在があります。