ナレッジ

Natural Language Processing - 自然言語処理を活用する研究開発

自然言語処理技術を活用し、様々な文書データの利活用を推進する

非構造化データである文書データを自然言語処理技術によって構造化し、データ利活用を促します。そのために、人と言語処理モデルが連携して作業を行える仕組みの開発や、文書の特性を考慮したモデルの開発を行っていきます。

BERTなどの事前学習済みモデルの登場によって自然言語処理技術の活用先は拡大

企業における業務の内容や結果の多くは文書の形で記録・蓄積されます。例えば、研究開発部門であれば特許や技術報告書、法務部門であれば契約書、営業部門であれば顧客応対メモなどが挙げられます。これらの文書は書き手が様々であるため、同じ事象であっても異なる表現がなされることがあり、文書の流れも異なります。そのため、こうしたデータの利活用には、まず始めにデータを構造化することが重要であると考えられます。

文書データを構造化するための手段として、教師あり学習その他の機械学習手法に基づいた文書分類や情報抽出などが挙げられます。例えば、文書分類技術によって、文書を内容に応じて自動的に分類・タグ付けしておくことで、所望の文書を探す際の手間を減らすことができます。一方で、機械学習手法を用いるにあたり、従来は教師データの準備コストが課題となっていました。

近年、この課題への対策として、BERT (Bidirectional Encoder
Representations from Transformers) に代表される事前学習済みモデルが活用され始めています。こうした手法では、正解ラベルの付いていない大量の文書データを用いて事前にある程度汎用的なモデルを学習しておき、少量の教師データでそのモデルをファインチューニングすることで目的のモデルを作成します。その結果、一から学習するよりも少ない教師データでモデルを作成可能になり、教師データの準備コストを低減できます。それにより、コストがネックとなっていたケースにおいても文書分類などの技術が活用できるようになり、自然言語処理技術の活用範囲は拡大しています。

人とモデルが連携することでコンセプトドリフトに対応

このように、コスト面の問題は大きく改善しつつありますが、自然言語処理技術の普及を妨げる問題がもう一つ存在します。それは、文書の内容や文書分類したい観点などが時間とともに変化してしまうコンセプトドリフトと呼ばれる問題です。例えば特許データの場合、現在使用している分類の観点だけでは、続々と登場する新規技術に対応できません。そのため、モデルが分類・情報抽出する対象を継続的に更新していく必要があります。そして更新の都度、モデルをファインチューニングするために人が正解ラベルを与える必要があります。これは文書データに限った問題ではありませんが、日々変化する人間の活動を記録する文書データは他のデータと比べてもコンセプトドリフトを起こしやすく、大きな問題となり得ます。

このように、学習済みモデルをそのままの状態で利用し続けることは難しく、人が継続的に関与してアップデートしていく必要があります。Deloitte Analyticsでは、The Age of Withの考え方に基づき、人とAIが協調・連携する社会を目指しており、自然言語処理分野においてもコンセプトドリフト対応のための連携の仕組みづくりを行っています。具体的には、人による正解ラベル付与(アノテーション)作業とモデルによる分類・予測処理を連動させ、モデルによる分類・予測が困難な事例などにフォーカスして人が正解ラベル付与作業を行うことで、人の作業コストを抑制しつつ、分類・予測性能の維持・向上を図ります。

このような人とモデルの連携の仕組み作りに加えて、文書データの特性に合わせたモデルの設計・開発も行っています。例えば特許データの場合、特許請求項間に存在する「発明の単一性」を考慮することで、特許の技術的特徴を反映したディープラーニングモデルを開発しました。

Deloitte Analyticsは、こうした研究開発活動を通じ、より精緻な文書データの分析と利活用を普及させることを目指します。

サービス事例紹介

  • 知財戦略策定 / 新規事業開拓のための特許データ分析
  • WEBニュース記事を用いた業界トレンド分析
  • コールセンター業務効率化のためのオペレータメモ分析
  • 顧客のWEB行動履歴に関する分析

Deloitte Analyticsトップページへ戻る

サービス内容等に関するお問い合わせは、下記のお問い合わせフォームにて受付いたします。お気軽にお問い合わせください。

オンラインフォームより問い合わせを行う

お役に立ちましたか?