教師データの量が少なくてもディープラーニングは可能か
(石井 以下敬称略)
人間のコミュニケーション手段は大きく変化しています。2016年の総務省のデータによると、電話、メール、チャットのうち、ノンボイスにおけるテキストによるコミュニケーションが増えてきています(チャットは2012年13.2%から2016年30.5%へ)。
コンタクトセンターにおける企業と顧客のコミュニケーションでは、2017年までは増加率が誤差の範囲としか認識できなかったのが、2018年になりチャットを使った顧客とのコミュニケーションが増えました(3~5%)。
そこで「2018年はチャットサポート元年」と考えています。
さまざまな仮説はありますが2021年には、チャットはメールを超えて15~20%にシフトすると予測されています。現在もLINEをインターフェースとして発展してきましたが、さまざまなサービスが登場しています。
LOHACOのマナミさんは一問一答で対応してくれます。ローソンのアキコちゃんはアウトバウンドによる提案ができます。横浜市のイーオくんはゴミの分別を支援、ヤマト運輸では再配達の受付、アニコム損保では保険加入の業務フロー支援など、さまざまな企業でチャットボットが活用されています。しかし、画像認識や音声認識に比べ、自由な対話、雑談等の領域ではまだ人間の領域には至っていません。
このパネルディスカッションでは現実的にチャットの領域でインフラを支えているLINE様、オペレーションを支えているトランスコスモス様、テクノロジーを支えているBEDORE様の3社にお集まりいただき、3~5年後どうなるのかということを中心にお話したいと考えています。
まずは、BEDOREの安野さんに、今後の展開も含めて自己紹介をお願いします。
安野 はい。株式会社BEDOREを3年前に設立しました。ミッションとしては「言葉が分かるソフトウェア」の開発を掲げて、主に対話エンジンを提供させていただいています。東京大学の松尾研の卒業生が作ったパークシャテクノロジーの子会社で、いわゆる東大発ベンチャーです。
事業内容としてはコンタクトセンター向けの対話エンジンの提供です。意味内容を理解して正しい回答を返すような自動応答のシステムで、精度が高いところと、エンジニアではない方であってもチャットエージェントをトレーニングできる使いやすいダッシュボードがあるところが特徴です。
個人的な見解では2018年に、ディープラーニングの領域で自然言語処理がようやく本格的に始動したと感じています。エポックメイキングな論文が出始めています。今後、2~3年に実用に向かうのではないかと考えています、
―LINEにコミュニティがたくさん生まれたときに、そこにデータが蓄積されると思います。そのようなデータをBEDOREでは基礎的な教師データとして使いたいですよね。砂金さんはどのようにお考えですか?
砂金 GAFA(Google、Amazon、Facebook、Apple)は最強といわれますが、アルゴリズムが強いわけではなくて、Googleはネット上のクローリングしたデータを持っている、Amazonはみなさんの購買データなどを持っているというように、タグ付けされたデータを持っていることが強いと感じます。その観点では日本の会社はまだまだです。
しかし、データ活用とプライバシー保護は表裏一体の関係にあります。LINEの場合はプライバシー保護に重きを置いて慎重にやっていました。とはいえGAFAに加えて中国のテンセントやアリババに踏み荒らされてくると、プライバシー保護一辺倒にいるわけにはいけないので声を上げるべきかな、と思い始めています。
―教師データを持っている企業との分担について、所さんとしてはいかがでしょう。
所 ここ数年、音声認識も進んできたので、コンタクトセンターをプラットフォームとしてみた場合、大量のデータがあるんですよ。ところが、蓄積された情報は、それぞれ企業の製品に関するバクなどニッチな情報なんです。
もしくはメーカーの特定の製品だけのデータです。そこでAIを3階建てで考えると、1階のクローリングで入手できるようなデータや、2階の業界別のデータよりも、3階の個別データ部分をわれわれが担っていけるのかなと考えています。その意味では、LINEさんと組んでいくことはあり得るでしょうね。
―データの精度を高めるようなPDCAをやりきれない企業が多いのですが、自動化できないものでしょうか。
安野 そこは今後かなり進んでいくと思っていまして、少ないデータ量でこれまでと同等かそれ以上というアルゴリズムはできています。必要な絶対量は今後減っていくはずです。
砂金 PDCAをやりきれないというのは、言い訳というか甘えのようなところがあって、われわれは実際にやっていますよね。BEDORE を始めて使ったのはLINEのコンタクトセンターでした。あれは1,000件の教師データでしたよね。その程度であれば人間が頑張ればいい話で、そのぐらいの作業を突破すればどうにかなります。
何億件のビッグデータをタグ付けしなければならないかというと、そんなことはありません。機種変更時のLINEのデータ引き継ぎに関する問い合わせぐらいであれば、800~600件でも精度は変わらないぐらいのアルゴリズムを作れるでしょう。それぐらいやった方がいいんじゃないでしょうかね。
所 コンタクトセンターでいえば、当社には内容を理解しているオペレーターが2万5,000人います。一斉に正解データを入力してアノテーションを行えば、2万5,000件のデータが毎日蓄積されていくわけです。正直、精度を上げる作業は、そんなにたいしたことではないと感じています。
VTuberのようなアバターがコンタクトセンターを活性化する
―コンタクトセンターでは、一時期「ビデオチャット」が注目されましたが残念ながら普及しませんでした。対話型AIを搭載したスマートスピーカーはスマートディスプレイのように液晶画面を搭載し始めています。このような時代の流れから、アバターの可能性はどうでしょう?
砂金 それはトランスコスモスさんがVTuberやればいいんじゃないかな(笑)
所 やろうとしています(笑)
砂金 おそらくコールセンターに行ったことがない方が大半ではないかと思いますが、素敵なおねえさんが制服を着てインカムを付けて、というイメージがありますが、実際には割と自由な格好でやっています。見た目よりも「ちゃんと電話やメールで対応できればいいですよね」という方が職場環境を選んでいる方が比較的多い気がします。なので、自分を晒すことに抵抗感があるんじゃないかな、と考えます。
しかしClovaの手や足が動くようになってオペレーターと連動すると、世界観が変わるのでは。物理的であっても、画面の中のアバターでもよいでしょう。きっとAmazonもGoogleもそういう発想はしません。初音ミクなど日本の文化があるからこそ、日本発で僕等が仕掛けていかないと。何かをベンチマークにして真似をするのではなく、そういうものが日本では定着するのではないかと思います。
所 VTuberは可能性としてはあるな、と思っていて、砂金さんがおっしゃったように、見た目も気にして仕事をしなければならないというと、ただでさえ求人が厳しい中、より厳しくなってしまいます。そこでVTuberとして対応する。消費者も直接人間と相対するとハードルが高くなりますが、キャラクターなら問い合わせしやすくなるでしょう。
そうすると、目的がなくても問い合わせをするようになるかもしれませんね。ライブコマースのように「こちらの製品を買われている方は、こちらもご購入されています」のようなクロスセル/アップセルの可能性も考えられます。テレビショッピングのようなことが、そこで行われるような発想にもなるので、いろんな可能性が拡がります。
安野 VTuberは間違いなくいいですね。われわれもチャットウィンドウ内のアイコンをどうするか、というお話をさせていただくことがありますが、無味乾燥的なアイコンを使っているお客さまと、キャラクターの設定を作り込まれているお客さまでは、ユーザーが問い合わせていただける確率も、満足いただける確率も違っています。きちんとキャラクター化すると、お客さまに親密さを感じていただけます。この流れは続いてほしいですね。
砂金 企業が公式のLINEスタンプを使う場合にも、キャラクターを立てることで「分からないことがあってもごめんなさいね」と言い訳ができるようにしておくといいでしょう。そうではないと満足度も損ねかねません。お客さまの期待値コントロールも含めてキャラクターの設定は重要です。
ところで、安野さんに質問させてください。女子高生AIの「りんな」がローソンでアルバイトをしている、というような場面を想定します。自然言語処理を考えたとき、安野さんはキャラクター設定の変更をAIの言語処理エンジン側に持たせるとすると、どういう工夫をするとよいと考えますか?
あるいはそれは幻想で、どんなアルゴリズムを使っても全体を作り変えなければいけないのでしょうか。
安野 そこは非常に難しい問題だと思っていまして、研究レベルでは語尾を変えるなど表層的な自然言語処理の研究は出てきています。一方で語尾を変えて、りんなが「です、ます」調になってローソンで働くことができるかというと、そんなことはないと思うんです。人格を決定するコンテンツは、ある程度まだ人間が設計する必要があります。
砂金 たぶんそういう論文は、日本人以外からは出てこないと思うんですよ。だからキャラクターをうまく使って、こんなにユーザーに受け入れられて、大量のデータが集まったという事実と、その裏側にはこんなアルゴリズムがある、ということを発表するような研究者が日本人から出てくると、AI全体の進化に対して米国人や中国人と違った貢献ができるチャンスがあるんじゃないかな。BEDORE、PKSHAあたりに頑張ってほしいです。
安野 そうですね。間違いありません。
―所さん、人間のオペレーターの各個人の違いはいかがでしょう。
所 電話対応をするオペレーターと、チャット対応をするオペレーターはまったく違っていまして、性格診断テストのようなものをやってみると明らかに真っ二つに分かれるんですね。電話の対応はできてもチャットの対応はできないタイプと、その逆のタイプがあって、初期の段階には「なぜ、できないんだろう」「なぜ、できるのだろう」と非常に苦労した経験があります。その上で、どうしたらお客さまにチャットを楽しんでもらえるんだろうということを有人対応で試してみました。
その結果分かったことは「このクライアントのこの回答には10分ぐらい待った方がいい」というようなノウハウです。あえてオペレーターにすぐに答えさせない、完全に回答しないで途中の段階で間違えてチャットを送信しちゃったような文章を一回目の吹き出しで出させて、その後で「ごめんなさい」などのように正しい文章を打つなどを手動で始めました。それをルールベースの中でキャラクター設定していくような裏ワザ的な使い方をしています。まだ有人チャットを無人化していくときには試行錯誤の状態です。それを自動化できれば、自動化されたからといって平準化されることはないと思います。
砂金 コールセンターですごいなと思うのは、関西圏では関西弁で「せやなー」のように話しやすいように電話をルーティングするなど、電話の時代に積み上げた知恵やノウハウがあるんだろうなあと思います。チャットボットのアルゴリズムも複数あって、クレームを言わずに退散してくれるとか、最後まで申し込みをしてくれるとか、そのパターンが分かると面白いですね。どちらかというと自然言語処理というよりCRMの領域ですが。
所 いまでも、あえて人間のオペレーターを通さずにLINEで対応するようなことはありますね。
砂金 プラットフォーム側で工夫はしますが、結局オペレーターのみなさんがいろいろな経験を積んでプラットフォーム側で工夫するところと、アルゴリズム側で工夫するところが出てくると思いますね。
「気持ち悪さ」との闘い、そして高齢者対応
―日本のコンタクトセンターは8割がインバウンドです。アウトバウンドはなかなかありません。対話型AIのスマートスピーカーが家庭に入ってきたとき、役割はどうなるでしょうか。どちらかといえばスマートスピーカーは待ちの状態でしかないのですが。LINEとしては待ちではないサービスを考えられていますか?
砂金 LINEでは「通知メッセージ」という機能があって、東京電力エナジーパートナー様、中部電力様、東京ガス様、日本航空様、全日本空輸様、ヤマト運輸様とやっていますが、重要性・必要性の高い有益なメッセージを、友だち登録をしていないユーザーであっても送信することは有効だと思います。ただ、Clovaに展開するときに議論したところ、スピーカーが「勝手にしゃべり始めたら迷惑じゃないか」という考えが大半でした。
いまは「メッセージが届いています」という状態で待っているのが、パーソナルスペースにスマートスピーカーが入り込めるぎりぎりではないか、と。玄関には入れてもらえるけれどリビングには入れないかもしれないという、きわどい境目をさまよっている状態です。もちろん信頼関係ができれば変わる可能性もあります。今はLINEやメールであれば、デジタルマーケティングとして有効かもしれませんが、音声はまだちょっと早いと思います。
所 どれだけ消費者がメリットを得られるかということですね。緊急速報のようなものであれば当然OKでしょうね。広告枠として使われ始めたら、スマートスピーカー自体が機能しなくなるかもしれません。
―スマートディスプレイのように画面に表示されたなら問題ないかもしれませんね。
安野 ああ、それはそうかもしれないですね。それから、AIを搭載したスマートスピーカーがその空間に誰がいるかを認識することも大切かもしれません。カメラが搭載されたら、マルチモーダルの技術は欠かせないと思います。
砂金 そうなんですけど。でもやっぱり気持ち悪くないですか?
気持ち悪さとの闘いなんですよね。Kinect的なものが付いたスマートスピーカーは作れます、しかし、技術的にどうかというより、そんな盗聴器のかたまりみたいなものが家にあって、安心して過ごせるかというと、大事な話のときには電源を切るようなことになってしまいます。少しずつ信頼関係を作るしかないな、と。
ただ、われわれは中国をベンチマークにしていますが、プライバシーを曝け出すことによってこんないいことがあるんですよ、と体感してもらえる場面は必要です。無人店舗などはまさにそうなのですが。家では困るけれど、オフィスや店舗ならいいとか。そういう場所からみなさんの心の壁が溶けていくことを期待しています。
所 慣れの部分もありますね。慣れて、いいことがこんなにあるんだなと理解すれば、ちょっとずつ拡がっていく気がします。
砂金 スマートフォンとの闘いですね。スマートフォンを使いこなせることができれば、正直スマートスピーカーはいらないじゃないですか、という見解です。小学生はスマートフォンを使っちゃダメと言われたらユーザー外です。けれども家にあるスマートスピーカーのClovaにLINE送ってと話せば、サービスを使ってもらえます。おじいちゃん、おばあちゃんなどの見守り介護など、新しいユーザーを取り込むことで変わっていきます。
所 私には小さい子どもがいますが、家で音楽を聴く体験はCDではなく、スマートスピーカーなんですよ。iPhoneにダウンロードして聴くものでもなくなってきています。若い世代では、話しかけて音楽を再生することが普通になりました。そんな世代の影響も増えてくると思います。
砂金 音声対話型AIは、電子レンジ、冷蔵庫、ホームセキュリティシステム、玩具、メガネなど、いろいろなものに搭載されると思います。現在はスピーカー型のハードウェア設計になっていますが、スピーカー型ではない次のアシスタントをいろんなメーカーさんと作ることができれば嬉しいです。
そこを中国や台湾に超えられてしまうと、僕等のアイデンティティをどこに持てばいいのか、悲しくなります。ハードウェアと合わせたサービス設計は一時遅れをとりましたが、キャラクターやAIをうまく使って生活を便利にするチャレンジができるのではないでしょうか。
―すべてを知っているAIや、あるいは旅行やグルメなど特定の分野に詳しいAIなど、さまざまなAIが登場するかもしれません。このとき、自分が情報に辿り着く方法が変ると思うのですが。
安野 現在の検索エンジンに似ていると思います。基本的に何かを調べるときはGoogleを使うと思うのですが、いま社会で何が起きているかについてはTwitter、商品についてはAmazonのように、音楽ならSpotifyなど現在でも特化していますよね。AIでも使い分けるようになるはずです。
所 実は、いろいろな取り組みをしています。コンタクトセンターのお客様ごとにボットやAIがあるんですね。メーカーごとに訊かなきゃならない、AIスピーカーごとにウェイクワードが違う、などの煩雑さがあります。
「問い合わせの概念をなくす」ということでいえば、AIに問い合わせにいくAIを開発するというか、APIゲートウェイの考え方で「そのAIに訊けば答えを持ってきてくれる」という、ひとつ上のレイヤーで問い合わせ対応する発想のサービスが出てくるのでは。
砂金 たぶん対話レイヤーとデータベースレイヤーが分かれるんでしょうね。情報を集めてくる窓口的なAIもあれば、個別の医療情報などに詳しいAIがあるとか。所さんがお話されたキャンプ用のテントのように、特定の商品に詳しいAIがあるといいですね。
2023年、5年後のコミュニケーションとは
――5年後の2023年に企業と顧客のコミュニケーションはこんなになっているんじゃないかというイメージをお願いします。
安野 うーん。これは難しいですね。5年後はスコープとして難しいです。1~2年先であれば昨日の積み上げで、10年先であればもう完成しています。5年後は微妙ですね、ちょっと考えていいですか(苦笑)
所 考えている最中だったんですけどね(笑)コンタクトセンターとしては、乗り越えなければならないハードルがあります。しかし、音声認識、画像認識などの分野が機能してくると思うので、事前決済などはスマートフォンやスマートスピーカーだけでなく、ウェアラブルデバイスに話しかければ済むところまでは進展すると予測しています。
砂金 5年後になっても、iPhone 15なのか20なのか分かりませんが、スマートフォンはなくなっていないですよね。みなさんのポケットの中には高性能化されたスマートフォンが入っていることでしょう。その進化したデバイスを使って便利になっている世界が訪れるのではないか、と。
2023年の前に、われわれは2020年を経験します。そのときにサービスは大きく進化するのではないか、と。お互いの言語が分からない外国人とスムーズにコミュニケーションできるアプリかデバイスが完成していないと、われわれの国力を下げてしまいます。2023年にはそれが一時的なブームではなく、自然に定着しているのではないでしょうか。
現在、ガラケー向けのサービスを各社止め始めていますが、全員がスマートフォンを持つようになります。これまでスマートフォンを持っていない人たちに気を使っていたことがなくなるでしょう。電話をするよりアプリを使うようになる。そんな風に世の中が統一されているのが2023年だと考えています。
ただ、ひとつわれわれが乗り越えなければならない壁があります。それが本人確認です。音声認識でお金を振り込むような場合、録音された声を使ったり、他人になりすましをされても困ります。
この本人確認さえ突破できれば、いろんなサービスの可能性はあります。そこができないので現在は、チャットで確認していても郵便物や電話に頼らざるを得ません。生体認識については総務省あるいは民間企業の頑張りに期待するしかないですね。
安野 いま研究者の間で話題になっているのが、2018年10月に発表されたBERTというランゲージモデルです。これがアカデミアの間では話題になっています。スタンフォード大学のSQuADというタスクのデータを利用しているのですが、バートを使うと人間よりも高いパフォーマンスが出ました。
だいたいアカデミアでテクノロジーが発表されてから実用化されるまで時間がかかるので、アノテーションも不要でマニュアルをすべてぶち込めば、だいたいの質問に答えられるAIが2023年には完成している可能性が高くなっています。
―みなさん、明るい未来像を描いていると感じました。AIの果たす役割が増えていくだろう、と感じました。本日はどうもありがとうございました。