大量の取調べ録音録画が作成されている案件を担当することがある。勿論優先順位の問題はあるが、どこかで内容を点検することは避けて通れない(検察官が捜査供述に依拠した立証を放棄し、かつ、被告人質問を実施しなければ、点検する必要がなくなることもあるにはある)。

仮に20時間分あるとすると、業者に反訳を依頼すると20万円以上かかるし、一月くらい待たされる。かといって、自分で20時間、聞きたいかというと全くそうではない(自分で一度、聞いても、将来的に必要になる箇所をすぐに取り出せる記録が作成できるわけでも無いから将来的に見て殆ど無駄な作業である)。

この点、最近では音声認識技術が急速に発展しており、それを活用すれば労せずして反訳が手に入るのではないか?と期待しているのだが、例えばグーグルドキュメントに「聞かせても」上手く認識してくれない。「聞かせて」上手く音声認識してくれるアプリも登場しているが、電話や打合せの声が飛び交う法律事務所では、静かな部屋でずっと聞かせ続けることが現実的に難しい。

最近、動画データのまま読み込ませて(つまり「聞かせる」必要なしに)反訳する機能のあるアプリがあると言うことで、知人が試してくれたのだが、それなりの精度で反訳が出来ていた。これまでの欠点を全て克服して、かなり有望であるとは感じた。

ただ、気になることもあった。
道交法違反の取調べ録音録画を用いたその実験では、反訳文が「署名とか酒試飲したのかな」となっていた。
なんのこっちゃ(飲酒運転の事案では無かった)と原データにあたると、「しょめいとか、し、しいんしたのかな」と言う風に聞き取れた。取調官が少しどもって、「署名とか、し、指印したのかな」と発言していたわけである。
まだ機械学習が足りておらず、「(署名)指印」より「(道交法だから酒の)試飲」という連想が働き、「し」を「しゅ」=酒と変換する、何らかの作用が生じたのだろう。
AIが「一番可能性のあると考える」訳語を当てると、このように、「酒を試飲した自動車事故」みたいな、全体の文脈からは有り得ない、しかしそこだけ切り取れば有り得る代物に仕上がるのかもしれない(更に悪いことに、複数回試行すると毎回、少しずつ違った反訳が出てくるそうである)。

結局は、まだまだ人海戦術で点検するしか無い・・ということなのだろうが、指数関数的に発展していく技術なので、数ヶ月後には違った局面になっているのかも知れない。

(弁護士 金岡)