マルチモーダルAI技術などと連携可能な機能を持つAPI群「AI suite」を提供開始
~声や表情を認識して自然な受け答えができるAIを実現~
お知らせ
2021年11月8日
NTTレゾナント株式会社
マルチモーダルAI技術などと連携可能な機能を持つAPI群
「AI suite」を提供開始
~声や表情を認識して自然な受け答えができるAIを実現~
https://aisuite.jp
NTTレゾナント株式会社(本社:東京都港区、代表取締役社長:楠木 健、以下NTTレゾナント)は、AI技術のAPI群「AI suite(エーアイスイート)」を本日より提供開始します。
「AI suite」は、これまでの主流であるテキスト情報の解析に加えて、音声・映像情報の解析を可能にするマルチモーダルAI技術などのさまざまなAI技術と連携ができる機能を持つAPI群です。「AI suite」内のAPIと組み合わせることで、AIサービスをスピーディに構築、提供することができます。外部API・サービスとの連携でサービス品質を上げることや、新サービスの実現も可能です。
NTTレゾナントは、「AI suite」の提供を通じて、AIで顧客と良質なコミュニケーションをとりたい企業のAIサービス開発・改善を支援します。人の感情に寄り添う高度なコミュニケーションを可能にするAIサービスを生み出し、人とAIが共存する社会・経済活動への貢献を目指していきます。
- 背景
NTTレゾナントは、2016年以降、独自の「gooのAI」(*1)技術を用いた「創造性のあるAI」の実現を目指して、さまざまなサービスの提供やAI技術の研究開発を進めてきました。実績として、自由な対話ができるキャラクターチャットボットを活用したプロモーションや、ディープラーニングによるレコメンド・マッチングシステムの構築支援などがあります。また、研究開発の成果はAIの難関国際会議で採録されるなど、評価を受けてきました(*2)。
昨今、オンライン会議やボイスチャットなど、音声や映像を主体とするコミュニケーションサービスが普及しつつあります。当社がこれまでサービスに活用し、研究開発を重ねてきた自然言語処理・AI技術の根幹は深層学習に基づいており、これらは音声・映像データのAI学習にも応用可能です。そこで、当社が持つ先進AI技術を音声・映像学習の領域にも発展させることで、ユーザーをより深く理解し寄り添うコミュニケーションが可能な AI サービスの開発支援などのニーズに応えられると考えました。この構想を元に、今回、提供開始に至ったのが「AI suite」です。
「AI suite」では、NTTレゾナントの自然言語関連のAI技術をベースに、音声・映像関連のAI技術などと連携ができる機能をAPI群として法人向けに提供します。「AI suite」内のAPIを組み合わせることでAIサービスをスピ―ティに構築、提供できるほか、外部API・サービスとの連携がしやすく、これまで以上に自由度の高いAIサービスを実現できます。
- 「AI suite」の概要
AI suiteイメージ
(1) 特長
①マルチモーダルAI
「AI suite」では、テキスト情報・音声・映像情報を活用して受け答えをするAPIを提供します。複数の入力情報を活用するマルチモーダルAIは、NTTレゾナントが積み重ねた自然言語処理技術と、NTTコンピュータ&データサイエンス研究所(以下、NTT研究所)の音声・映像認識技術の統合によって、NTTレゾナントが新たに開発した技術(*4)です。
この新技術により、テキストに加え、声の調子や表情、身振りからユーザーの属性・感情・行動を統合的にAIが予測し、ユーザー一人ひとりに寄り添って最適かつ自然な受け答えができるAIが実現します。
②AIによる自然な会話を実現
ユーザーの発話に対して、ルールベースでパターン化した受け答えではない、人間らしいAIによる応答ができます。
「AI suite」のAPI群は高度な言語解析技術に強みを持っており、複数回の受け答えで会話の文脈を理解し、ユーザーの意図を踏まえ的を射た応答を実現します。また、会話の中で日時・場所・価格などの重要な要素を抽出することもできるので、AIによる自動受付システムなどとの連携も可能です。
③柔軟なプラットフォームで提供可能
Webブラウザを始め、LINEやTwitterなどのSNS、スマートフォン向けアプリへの組み込み、ARやVRとの組み合わせなど、さまざまなプラットフォームで展開・連携できます。必要なAPIを切り出して提供することも可能です。
また、「AI suite」の基盤システムは、サーバー負荷に応じて自動でクラウドサーバーの増減を調節するオートスケールに対応しています。急なアクセス増などによるサーバー負荷の上昇時でも、安定してサービスを提供できます。
(2) 実現可能なサービスイメージ例
・オンライン/メタバース上で接客するAI
テキスト・音声・映像から、AIが顧客の現在のニーズや状況を理解します。マルチモーダルAI技術で顧客をより深く理解できるようになったAIチャットボットを、オンラインや3Dの仮想空間であるメタバース上で提供することで、より親しみやすさと没入感のあるAIの接客を実現します。顧客の行動履歴の学習との組み合わせで、そのときどきの顧客の感情や状況を踏まえた最適な提案や、きめ細やかなサポートを行うことも可能です。
人とAIのマルチモーダルによるコミュニケーションは、接客以外にも、社員のメンタルウェルネスサポートや、コールセンターにおける人材トレーニングなどでも活用できます。
・顧客との音声会話で検索・予約・購入などを実行するAI
顧客との音声会話をもとに、AIが検索・予約・購入などのアクションを代行するシステムを実現できます。例えば、顧客が「今から予約できるレストラン」を探していることをAIに伝えると、AIは好みのレストランの雰囲気や料理の系統・予約したい時間などの必要な情報をヒアリングし、おすすめのお店の提案から予約まで一貫して実行します。さらに、AIは自動音声のような堅苦しさではなく、自然なやりとりから顧客の希望を正確に認識します。
(3) 導入・利用について
「AI suite」は、AIによるユーザーとの高度なコミュニケーションを実現したい、幅広い業界・業種のニーズに応えます。既存サービスへの提供実績のあるAPI群を用いるため、クライアント企業の持つデータやシステム、APIと組み合わせて、サービスを早期に構築することが可能です。また、サービスの提供プラットフォームも柔軟に対応できます。
導入時の初期費用や運用費用は要件によって異なります。「AI suite」を用いたサービス展開をご検討の際は、公式ページ末尾のお問い合わせフォームからご連絡ください。
「AI suite」公式ページ:https://aisuite.jp
【補足】
(*1)「gooのAI」は、ポータルサイト「goo」を通じて蓄積したインターネットに関わる技術やノウハウと、NTTグループのAI関連技術「corevo®※」を活用し、NTTレゾナントが独自に開発した技術です。自然言語解析技術やディープラーニングを活用することで、高精度の文脈理解やパーソナライズ、表記ゆれへの対応など、さまざまな機能を実現しています。
(*2) これまで、「教えて!gooのAIオシエル」(2016年)や「AI菜奈ちゃん」を始めとしたTVドラマ連動型AIチャットボット(2017年~2019年)などのサービス提供や、婚活のマッチングシステムの開発支援(2021年)をしてきました。また、2020年には研究開発の成果として、人工知能分野における国際会議「AAAI(Association for the Advancement of Artificial Intelligence)」や「IJCAI(International Joint Conference on Artificial Intelligence)」に採録された実績があります。
(*3) NTTコンピュータ&データサイエンス研究所の次世代メディア処理AI「MediaGnosis」を活用しています。
(*4) Shuhei TATEISHI, Sohei OKUI, Hirofumi YASHIMA, Makoto NAKATSUJI, Semantic and Topic fused Multimodal Transformer, 人工知能学会全国大会論文集, 2021, JSAI2021 巻, 35th (2021)
この技術は2021年11月現在、特許出願中です。
<URL> https://www.jstage.jst.go.jp/article/pjsai/JSAI2021/0/JSAI2021_1N4IS1a04/_article/-char/ja
※「corevo®」は、日本電信電話株式会社の登録商標です。
※ 記載されている会社名、サービス名および商品名は、各社の登録商標または商標です。
以上