Pocket

砂金信一郎 氏 (LINE株式会社 AIカンパニー LINE BRAIN室 室長)
張成煥 氏 (バイドゥ株式会社 代表取締役社長)
中島寛子 氏 (株式会社サウンドハウンド 代表取締役)
モデレーター:石井智宏 (モビルス株式会社 代表取締役社長)

プレパネルプレゼンテーション

パネルディスカッションの冒頭にモデレーターの石井智宏より、議論のベースとして、ビジネスにおけるテクノロジーの進化や現状の活用、社会の状況、課題感などを説明した。

プレパネルプレゼンテーション モビルス株式会社 石井

本日のビジネスパネルディスカッションのテーマは「対話AI・音声AIは、顧客とのコミュニケーションをどう変えていくか」です。

まず、このカンファレンスを主催させていただいている弊社モビルスについて簡単にご紹介をさせてください。

我々は最先端テクノロジーでコミュニケーションに変革を起こしていきたいと取り組んでいる会社です。事業領域としては、企業と顧客のコミュニケーションの接点となるコンタクトセンターを皮切りに、自治体・官公庁の行政サービス、社内における業務プロセス、そしてセールス&マーケティングという幅広い事業を行なっています。

製品の一部を紹介させていただきます。ひとつが「mobi Voice」という製品です。これはAIを活用して電話で自動応答をさせていくものです。そして主力商品の「mobi Agent」です。これはオペレーターのチャットサポートやAIのチャットボットで自動応答したりするのに利用するものです。おかげさまで、2年連続でマーケットシェアNo.1の評価を頂いています。加えて、アバター接客という製品もあります。リアルの店舗や受付ではアバターが前面に立ってコミュニケーションをしてくれるものです。

ビジネスパネル プレパネルプレゼンテーション

本日のビジネスとアカデミックという2つのパネルディスカッションは、異なる目的で開催しています。

ビジネスパネルディスカッションのスコープはこの先3年の動向を語ってもらいたいと思っています。アカデミックパネルディスカッションは、もう少し長期的な視野(10年後)で語ってもらいます。アカデミックの場でどういった要素技術が研究されているのかといった内容です。それぞれ、今後のコミュニケーションテックの発展を占っていただきます。

主に3つの視点でディスカッションしてきます。一つ目が、この3年で技術がどう変わっていくのかという「テクノロジー」の視点。続いて、今後のサービスはどう変わっていくのかという「サービス」の視点。そして「グローバル」という視点。日本だけではなく、中国、アメリカや東アジアなどを含めてテクノロジー、サービスの進化がどう変わってくるのか、というポイントです。

それでは、ビジネスパネルディスカッションの登壇者をご紹介します。

砂金信一郎 氏 (LINE株式会社 AIカンパニー LINE BRAIN室 室長)
張成煥 氏 (バイドゥ株式会社 代表取締役社長)
中島寛子 氏 (株式会社サウンドハウンド 代表取締役)

以上、3名の皆様とディスカッションしてきたいと思います。

コミュニケーションテックを語る上で外せないのがICT要素の進化です。よくデバイス(端末)、ネットワーク(通信)、コンピューティング・パワー(処理)に分けて語られます。

プレパネルプレゼンテーション「ICT要素の進化」

デバイスでいいますと、ワークステーションからパソコン、スマホと移ってきており、最近ではスマートウォッチ、AIスピーカー、そして本当に小さなウェアラブルデバイスに進化してきています。ネットワークは、まさに5G展開の夜明け前といったところです。コンピューティング・パワーもクロック数値を上げていくだけではなく、専門プロセスに特化させたコンピューター・プロセッサによりパワーを上げてきています。では、この先3年どう変わっていくのでしょうか。

プレパネルプレゼンテーション「この3年で実感する変化」

ここに表示しているサービス・製品の大半は2016年後半から2017年初頭に出始めたものです。例えば、ウェアラブル、AIスピーカー、リアルタイムで翻訳してくれる音声翻訳機があります。

また、企業への問合せでチャットボットが応対してくれることも増えてきました。そして、どこでも高画質の映画が見られるストリーミングも一般的になりました。さらには、激しい競争が繰り広げられているスマホ決済です。これらが直近3年ぐらいで新しく見えてきた変化だと思います。

このようにAIや関連するデバイスが増えてきていますが、実際に消費者としての意識はこの3年でどう変わったのでしょうか。調査によれば、AIデバイスを持っている人は10%ぐらいであり、まだまだ普及率は低いです。「AIと話したことがある」と認知しているのは3人にひとりぐらいです。

また、企業とチャットでコミュニケーションをとる時に、オペレーターとAIのどちらと話したいのかという質問に対して8割の方がオペレーターと話したいと答えていて、我々としてもショッキングな結果が出ています。ですから、消費者の意識としては、AIはなんとなく身近になりつつあるけれども、まだ違和感がある、もしくはうまく使いこなせないというのが現状です。

プレパネルプレゼンテーション「未来を見通すキーワード」

しかしながら、5Gにより大量のデータが扱え、多数の端末がつながって、低遅延が実現できれば非常に大きな変化が起きることが予測されています。

また、2019年のガートナーレポートに出てきたキーワードを見ていきますと、いよいよAIがどう使われるべきか、使おうとする時のインフラやセキュリティに議論が集中してきたと感じます。こうしたキーワードもヒントにしながら、今日はディスカッションしていきたいと思います。

砂金様はスピーチで紹介させて頂いたので、張様と中島様から簡単に自己紹介をお願いします。

バイドゥ株式会社

張成煥(以下、張) 皆さんこんにちは、バイドゥ株式会社の張です。簡単に自己紹介をさせていただきます。

バイドゥ株式会社 張氏
張成煥氏(バイドゥ株式会社 代表取締役社長)

百度(バイドゥ)は本社が北京にありまして、全世界に4万人以上の社員がいます。NASDAQにも上場していて、日本も含めてアメリカ、シンガポール、タイなどに海外支店を持ち、幅広くビジネスを展開しています。

百度のコーポレートミッションは、去年4月に変更して「テクノロジーで複雑な世界をもっとシンプルに」となっています。百度は、Googleと同じような検索エンジンの企業として認識される方が多いですが、去年からAIにフォーカスしてミッションを変更しています。はじめに、こちらの動画をご覧下さい。

中国では既に、顔認証で支払い決済ができます。この動画でも百度北京本社のカフェテリアや食堂にて、顔認証で支払いを済ませて食事をしています。 AI技術が非常に身近になっていることがわかるかと思います。 百度のAI戦略を簡単に説明しますと、「ABC戦略」となります。(A)AI、(B)ビックデータ、(C)クラウドという3つを柱としています。

また、IoTも手掛けており、日本にて開発、販売している「popIn Aladdin(ポップインアラジン)」を動画で紹介させて頂きます。

以上です。本日はよろしくお願います。

株式会社サウンドハウンド

中島寛子(以下、中島) 皆様こんにちは、サウンドハウンドの中島寛子と申します。 このような機会を頂きまして 、ありがとうございます。

簡単に当社についてご紹介させていただきます。

株式会社サウンドハウンド 中島寛子氏
中島寛子 氏 (株式会社サウンドハウンド 代表取締役)

当社SoundHound Inc.は、アメリカのシリコンバレーで2005年にスタンフォード大学の卒業生を中心に設立された、サウンド認識技術を開発している企業です。

当社のサウンド認識技術は、音楽を認識する「音楽認識」と、ヒトの話す言葉を理解する「音声認識」という2つの柱からなっています。現在、世界7カ国に拠点を持ち、非常に優秀な技術者が在籍しています。

また、世界有数の企業様(ダイムラー、テンセント、リクルートホールディングス、本田技研工業など多数)から2億ドルを超える資金調達をしています。現在、当社の技術は世界で3億を超えるユーザーに利用され、100を超える技術特許を保持しております。

日本法人は2007年に設立致しました。私はその当時からずっとサウンドハウンド社に関わって参りました。

こちらが当社の主要3製品です。

SoundHound 3つの製品

左側が社名の「サウンドハウンド」を冠しているモバイルアプリです。ユーザーが口ずさんだり、ラジオやテレビBGMから流れたりする曲に、モバイルアプリをかざすだけで瞬時にその曲の題名を検索することができるものです。

中央にあるのが、「HOUND」という北米で提供しているアプリです。何か知りたい情報を話しかけるだけで、簡単に情報を探すことができるものです。最も力を入れているのが、右側の「HOUNDIFY」という開発者向けの音声AIプラットフォームです。

当社は一般ユーザー向けに直接サービスを提供するという形ではなく、このプラットフォームを通じて企業向けに音声認識技術を提供するビジネスを展開しています。そして、企業ユーザーはブランドや社名を保持したまま当社の技術を利用できます。

例えば、モビルス社が当社の技術を利用したい場合でも、「OK モビルス」「Hey モビルス」と呼びかけて、当社のサービスを利用することができます。また、企業ユーザー様がご利用になった音声データを当社と共有する仕組みも備えています。当社は黒子的な立場で、企業が最も必要としている音声認識サービスを開発しております。

当社の音声認識技術の大きな特徴は、複雑な文章でも柔軟に素早く、話者の意図を理解して認識するというものです。では、簡単なデモをお見せします。

特定の場所の天気、その周辺のレストランの検索など、文脈に基づいたAIと対話するデモ

当社のミッションは「Houndify Everything」。

当社の音声認識技術をあらゆるIoT機器に導入することで、人々と機器が声で自由にインタラクティブなコミュニケーションができる世界を実現することです。そのために、当社はこれからも世界最高峰の音声認識技術の開発と提供に努めて参ります。

パネルディスカッション

― ヒト、企業、モノの間におけるコミュニケーションを変えていくと思われる技術の発展がありますが、これから3年で具体的にどんなものがあると思われているでしょうか?

砂金 先ほどのサウンドハウンド様のデモンストレーションは素晴らしかったです。非常にスムーズにデモが動いていました。

我々も音声認識、音声合成を使っていろんなサービスを出したいと頑張っています。しかしながら、スマホのタッチインタフェースや、Googleの検索は手強いです。

アメリカであれば車の運転中に音声認識を利用する機会も多いと思います。しかし、例えば日本の地下鉄内でスマホを利用するひとは多いですが、彼らはそれほど音声認識を必要としていない。だから、1,2年ぐらいのスパンで音声認識の必然性を考えると、少々苦しいわけです。

LINE株式会社 砂金氏
砂金信一郎 氏 (LINE株式会社 AIカンパニー LINE BRAIN室 室長)

2023年でもiPhoneはバージョン15ぐらいで存在し、Googleももっと良いスマホをだして、スマホはなくならないでしょう。こうした状況において、音声インターフェースをどう使うか結構悩むところです。今日はバイドゥの張様がいらっしゃっていますが、現在、中国の上海、北京、深センで起こっていることが、3年後東京に輸入されているのではないでしょうか。していて

スマホでできることはスマホでやればいいと思っています。ただ店舗や商業施設などのいろいろなところにマイクやカメラが仕込まれていて、わざわざスマホを顔の前に出さなくても何かできるという点においては、音声インターフェースはすごく可能性があると思います。

顔とスマホが30cm以内に近づいた時点でもうAppleとGoogleの独壇場となり、基本的に彼らのプラットフォーム上で役に立ちそうなサービスをLINEは作らないといけない。皆さんもそれを期待していると思います。しかし、スマホじゃないもの(デジタルサイネージ、自動販売機など)を媒介するものに関しては、いろいろなものが出てくると思います。この方面では、音声認識、音声合成などが、もっと活かせるのでしょう。ですから「脱スマホ」を果たせるかどうかで変わってくると思います。

3年後も、スマホの4・5インチの画面インターフェースを利用して動画をみたりメッセージを送ったりするだけであれば、ユーザーの利便性や生活はあまり変わりないことになります。各企業が努力していろいろ作っていますが、皆さんの振る舞い、生活、価値観を変えられるかどうかが肝になると思います。

中島 当社としては、やはり音声認識技術が広く使われると考えています。現在、当社で一番大きなお客様は自動車企業ですが、運転をしている時に車が相棒として感じられるような自然な形で、音声は使われていくと思います。

また、当社としてはあらゆるIoT機器を「HOUNDIFY」でつなぎたいというミッションもあります。そして、実際に声のコミュニケーションとは非常に大切なものだと思っています。音声は日常で機械と人との間の関係をより温かく便利にしていく可能性があります。ですから、音声認識の使われ方を制限しないでいきたいと考えています。

ここ3年で何が技術的発展に重要となるかは一言では言えません。当社の観点から言いますと、本当に優れた技術者を雇用していくことがまず重要です。それと同時に、会社がより大きな観点からどのようにプランニングしていくかも非常に大事だと思っています。またより多くのお客さまにお使い頂く事で、たくさんのフィードバックを頂きたいと考えます。

パネルディスカッション

砂金 先ほどのサウンドハウンド様のデモは、文脈をよく理解していましたよね。

日本語で音声認識をするときに本当に困る点があります。日本語で「結構です。」「大丈夫です。」と言われたとき「YES」なのか「NO」なのか判断するのは本当に難しいです。その瞬間だけを音響モデルで読んでもわからないのですが、前後の文脈があって初めてわかるわけです。

ですから、現状だとその直前の会話を含めて文脈を理解しています。加えて、会話の趣旨や肯定的か否定的かという会話の雰囲気まで把握して「大丈夫です。」を認識すれば、ずいぶんと精度の高い音声認識ができると思います。

現状では、こうした曖昧さが最後に残ってしまいます。そのため、確認のためにユーザー選択式のボタンを用意しないといけなかったりします。ここも含めて完全に音声認識に任せられるようになったら、日本語での応用範囲がもっと広がると思います。

 今後3年間で何が起こるかを正確に推測するのは非常に難しいものです。

今現在で考えると、やっぱり音声認識と画像認識がもっといろいろな場所で使えるようになり、いろいろなものが出てくると思います。

例えば、弊社のAIキーボード「Simeji」ですが、全世界で4,000万DAU(Daily Active User)、日本だけでも1,000万DAUあります。そこに去年から音声入力機能をもたせました。この音声入力機能は日本での利用率は数%ですが、アメリカでは17%のユーザーが使われており、中国でもかなり使われています。

単純な音声認識だけではなく、感情も含めて分析することが今後のトレンドになるのではないでしょうか。

― 人がAIと接するインターフェースは今後どう変わっていくでしょうか?どんな形式でコミュニケーションをとることになるのでしょうか?

中島 当社は音声認識であらゆるIoT機器と人を対話させて行きたいのですが、今私たちが思い浮かべていないようなインターフェースも出てくると思っています。ですからインターフェースを限定していません。OSやハードに依存しないような戦略をとっており、ニーズがあれば何にでも使って頂きたいという姿勢です。

砂金 デバイスがどんなに変わっていこうとも、ヒトとヒトは3年後も同じように会話するでしょう。しかし、企業対個人のコミュニケーションがどうなるかは、産業全体で考えると簡単ではありません。

例えば、音声だけですべての処理が完結するかというと、技術面だけでは言い切れません。日本では、印鑑を押すことや印紙を貼らなければならないというビジネス上のいろいろなルールがあります。そのルールが3年で変わるかというと、そこまで変わらないでしょう。だから、技術だけですべて変わるものではありません。

現在、AIの恩恵を受けているのは、音声に関する技術よりも、ビジュアル系(コンピュータビジョン)でしょう。コンピュータビジョンの方が先に成果が出てきている印象です。例えば、かざすだけで機器の故障箇所がすぐに分かる。こうした、ビジュアル情報の理解が進んでもっと活かせるようになるでしょう。

本人認証のところが変わってくるといいですね。現在、日本ではマネーロンダリングの温床にならないように窓口認証や紙に押印することを重視する文化があります。この本人認証が変わればコミュニケーションが最適化できるのではないかと期待しています。この部分は、3年では難しいかもしれません。

― 企業と顧客とのコミュニケーションはどのように変化していくでしょうか?

 これまでGAFAやBATは、メディア時間(ユーザーが見てくれる時間)を競ってきました。簡単にいえば、ユーザーの目を奪う競争です。そして、人間が見るデバイスは、テレビ、タブレット、スマートウォッチというようにどんどん小さくなってきました。小さいものを見るのは人間の目にも健康にもあまりよいものではありません。ですから、これからGAFA、BATといった企業は、目だけの競争ではなく、「目+耳」の競争に入ります。耳の時間も奪いたいわけです。つまり、音声認識とか音声入力、そして音声広告などがものすごいスピードで伸びてくると思います。

― 今回のキーワードの1つに「グローバル」があります。皆さまが世界で事業を展開されていくなかで、日本と海外とでどのような温度差や難しさを感じていますか?

砂金 これほど国とか言葉によってツールが分割されている領域は、コミュニケーション以外のところではあまりないと思います。

インターネットサービスの場合、基本的には世界で一番便利なものが世の中に浸透するという一極集中の流れにあります。けれども、LINEはWeChatやFacebookに負けずに日本でサービスを継続できています。これは、日本人の好みに合った日本向けのサービスを徹底的に作りこんでいるからです。LINEの社内では「ハイパーローカライズ」と呼んでいます。

資本関係でいうと、LINEの親会社は韓国のNAVER社ですが、韓国流のやり方を日本に押しつけることは全くありません。韓国流のやり方をしても日本では流行らないからです。日本人が日本でサービスを企画して開発をして日本向けにサービスを展開します。NAVER社は、そのために必要なサポートはいくらでもしますというスタンスです。

これはLINEが海外事業を展開する場合でも同じです。台湾、タイ、インドネシアでサービス展開するにしても、現地の人が便利に使えるものを現地のメンバーが中心となって開発していかないと使ってくれません。それぞれの地域でそれぞれのニーズがあるので「ハイパーローカライズ」が必要です。コミュニケーション領域は特にそうだと思います。

例えば、医療画像解析だったらアメリカでの成功事例は海外どこでも展開できるでしょう。しかし、コミュニケーションの領域においては、成功事例は参考にはできますが、そのまま別の国に持ってきても流行らないと思います。日本で展開するのであれば、日本流に日本で作り変えなきゃいけないし、そこに手間がかかるのがコミュニケーションテックの難しさでもあります。

こうした状況は、日本スタートアップにとって、GAFA、BATからのある意味で保護になっています。ただし、日本で流行ったものを国内だけで展開するのではなく、別のやり方で他の国に輸出していくことは当然考えるべきです。LINEも日本での成功を輸出するといった点では、まだまだです。

パネルディスカッション モデレーター石井

 自身の経験をご紹介したいと思います。私は約5年前に百度北京本社から日本に派遣されました。それから、ずっと日本に住んでいますが、 はじめて仕事で東京大学を行った時に、工学部のコンピューターサイエンスの規模が小さいことに驚きました。中国やアメリカの名門大学のコンピューターサイエンスは規模が学生数も教師数も全く違います。一方で、東京大学の材料工学は非常に大きな規模でした。

このとき感じたのが、トップの大学が重視している分野が国内で一番強いということです。中国では、それがAIです。日本の場合は、材料工学が大きかったので、ものづくりが強いということです。ですから、両国の良いところを採用、すなわち中国のAI技術に日本のものづくりの技術をプラスして「popIn Aladdin(ポップインアラジン)」を日本で作り、成功しました。

例えば、AI分野でも中国の技術に加えて、日本の質へのこだわりや匠の精神を融合していけば、世界を席巻できるようなものができると思います。

中島 私はシリコンバレーのスタートアップに色々と関わってきましたので、当社のようにスタンフォードの卒業生たちが中心となってスタートアップを起こすのも数々見てきました。彼らは日本、アメリカなどの国単位でそもそも考えておらず、最初から世界を目指しているところが大きく違います。

しかし、こういった違いがあるからといって、悲観的になる必要はないと思います。日本の技術者もとても優秀で、日本の技術の潜在力はとても大きいと思います。優れた技術と勤勉さ、チームワーク力といった良さを生かして世界にチャレンジいけばいいのです。当社の日本法人では、世界のチームと一緒に働くという感覚を持ちながら、各国の技術者と交流を密にしグローバルな市場を目指していきたいと思っています。

― 3年後に自身が欲しいと思うサービスは何ですか?

砂金 正確な本人確認を実現して、早くコミュニケーションでもっといろいろなことができるようにしたいと思います。実はきちんと本人確認ができる手段を確立している国は、それほど多くありません。早く本人確認を実現して、役所の手続きとかを簡略化したいですね。

 やっぱり人間の生活がもっと豊かになるサービスが欲しいと思っています。

中島 当社は、ヒトと機器が音声でコミュニケーションできる世界を作っていくのが目標です。それはまた、人と機器の間に暖かい感覚を生み出すものだと考えています。ヒトと機器と会話することで、生活の中に暖かさをより与えられるようにしたいです。

― これで、本日のビジネスパネルディスカッションは終了となります。皆さま、どうもありがとうございました。