「goo」で開発・蓄積したAPI公開第5弾!AIによる話し言葉の処理技術向上に役立つAPI 2種を公開
~自然文の検索やチャットボットに応用可能~
お知らせ
2018年4月24日
NTTレゾナント株式会社
「goo」で開発・蓄積したAPI公開第5弾!
AIによる話し言葉の処理技術向上に役立つAPI 2種を公開
~自然文の検索やチャットボットに応用可能~
https://labs.goo.ne.jp/
NTTレゾナント株式会社(本社:東京都港区、代表取締役社長:若井 昌宏、以下、NTTレゾナント)は、「gooラボ」にて、話し言葉に近い文章での検索やチャットボットなどの対話サービスに応用可能なAPIを4月24日(火)から公開します。今回公開するAPIは、2つの文章を比較し意味の類似度を数値化する「テキストペア類似度」APIと、自然な文章から自動的にユーザーの属性情報などを抜き出す「スロット値抽出」APIの2つです。
「goo」はサービスを開始した1997年以来、NTT研究所との連携を通じてWeb検索に関わる技術やノウハウを蓄積するとともに、オープンイノベーションを促進すべく「gooラボ」でこれらの技術を公開してまいりました。なかでも今回公開する2つのAPIは、近年のAIの発展を支える「自然言語処理」技術の精度向上に役立ちます。人間が使用する言語をコンピューターに処理させるこの技術は、自然な対話を行うチャットボットの開発やコールセンターシステムの一部自動化などを実現するにあたって、必須とも言える重要な技術です。
なお「gooラボ」におけるAPIの公開は、第1弾「形態素解析」「固有表現抽出」「ひらがな化」「語句類似度算出」、第2弾「商品評判要約」、第3弾「キーワード抽出」、第4弾「時刻情報正規化」に続き、今回は第5弾となります。
1.公開内容
(1)テキストペア類似度
「テキストペア類似度」APIは、任意の2つの文章を比較し意味の類似度を数値化するAPIです。これを利用することで、例えばFAQの検索において、「ユーザーからの質問文」とデータベース上のFAQ(質問・回答)にある「質問文」を比較し、類似度を示す数値が高い質問文とそれに紐付く“答え”をユーザーに提案するといった機能を持たせることが可能です。
当APIは文書ベクトル化技術※1を活用しており、入力された2つの自然文の意味的な類似度を0~1間のスコアで出力します。出力されるスコアは、2つの文の類似度が高いほど1に近くなります。
図1 スコア出力イメージ
図2 FAQ検索での活用イメージ
(2)スロット値抽出
「スロット値抽出」APIは、自然な文章から自動的にユーザーの属性情報などを抜き出すAPIです。これを活用することで、ユーザーとの自然な対話を行うチャットボットの開発のほか、音声認識システムとの組み合わせで、オペレーターの代わりにお客様の会話内容から氏名や生年月日を抽出し、本人確認を自動で行うコールセンターシステムの構築などが可能になります。
当APIはスロット値抽出技術※2を活用しており、あらかじめ定義した氏名(姓、名)・生年月日などの「基本的な情報」を、ユーザーとの会話など入力された文章から自動的に抽出します。また、抽出する情報は企業名や顧客番号など、多様に定義することができます。
図3 文章からの自動抽出イメージ
なお、今回公開したAPIは、NTTグループのAI関連技術「corevo®※3」を使用しています。
【参考:これまでのAPI】
第1弾(2014年12月):「形態素解析」「固有表現抽出」「ひらがな化」「語句類似度算出」
https://pr.goo.ne.jp/goo/2014/1874/
第2弾(2015年6月) :「商品評判要約」 https://pr.goo.ne.jp/goo/2015/11810/
第3弾(2015年12月):「キーワード抽出」 https://pr.goo.ne.jp/goo/2015/13084/
第4弾(2016年3月) :「時刻情報正規化」 https://pr.goo.ne.jp/goo/2016/15217/
※1 文書ベクトル化技術とは、文書に出現する単語の頻度情報などをもとにして、文書の意味を数値列として表現する技術です。
※2 スロット値抽出技術とは、タスクを実行するために必要な属性情報をスロットとしてあらかじめ定義しておくことで、自然文からスロットにマッチした部分をスロット値として抽出する技術です。スロットは多種多様に定義することができます。
※3「corevo®(http://www.ntt.co.jp/corevo/)」は日本電信電話株式会社の登録商標です。