SNSやブログ、口コミ、小説や文献など、私たちの身の回りにはたくさんの文字情報(テキストデータ)が溢(あふ)れています。その膨大なテキストデータから、新たな知見、発見を見いだそうというのが、『テキストマイニング』です。データサイエンスの領域として、マーケティングなどのビジネスだけでなく、研究でも活用が始まっているテキストマイニングについて解説します。
テキストマイニングとは?
テキストマイニングとは、膨大なテキストデータ(文字情報)を分析して、そこから新たな知見、発見をする技術であり、データサイエンスの一分野です。
このテキストマイニングは、これからの社会に欠かせないスキルといえます。実際、文部科学省により「数理・データサイエンス・AI教育プログラム認定制度」がスタートしていることからわかるように、データサイエンスは日本の大学がこれから重点的に強化していこうとしている分野です。
かつての分析といえば、Excelのようなツールを使って項目ごとにデータを整理して、集計したりグラフ化したりして行っていました。そのように項目ごとに整理されたテキストは、「構造化されたデータ」になります。
しかし、私たちが日常的に書いたり話したりしているテキストとして、SNSの書き込み、ニュースやブログの記事、小説、学術論文など、さまざまなものは「非構造化されたデータ」です。この種の構造化されていないデータを分析に回すのは至難の業でした。
しかし、「ビッグデータ」という言葉に象徴されるように、今はデータが大量に生産されている時代です。中には、インターネット上の多種多様、かつ構造化されていない情報を、ビッグデータとして分析して、新しいビジネスに生かそうという動きも起こっています。
困難だった非構造化データの分析が可能に
では、これら非構造化されたテキストデータを分析するにはどうすればいいのでしょうか。
例えば「SNSにある膨大な書き込みから、何らかの傾向を見いだしたい」という分析を行うのに、Excelに整理して集計しようとしたら、とんでもない作業になるのは明らかであり、現実的ではありません。
そこで、非構造化されたテキストデータに対して、コンピューターを使った自然言語処理、人工知能(AI)などのICT技術を駆使して分析するのがテキストマイニングという手法です。
テキストマイニングの応用例
テキストマイニングは、すでに多くのビジネスで活用されています。いくつか例を紹介しましょう。
マーケティングでのニーズ分析
SNSやブログなどの書き込み、ネット上の口コミ情報、自由回答形式のアンケートなどのテキストデータを対象に、人々の好みや傾向を分析します。時系列で傾向の変化を調べることも可能です。
特定のサービスや商品の認知度や評価を調べたり、世の中のトレンドを調査したり、隠れたニーズを探し出したりするのに活用されています。
コールセンターの効率化
コールセンターは、利用者からの電話による問い合わせに、オペレーターが答えるサービスであり、問い合わせに対して的確に、かつスピーディーに答えていかなくてはいけません。回答に時間をかけて待たせていては利用者の満足度が下がってしまいます。
そこにテキストマイニングが活用され始めています。例えば、過去の問い合わせのデータをもとに、「この種類の問い合わせには、このような回答が適している」というデータを、スコア付きでオペレーターに提示します。オペレーターはそれを確認しながら回答に役立てることで、迅速に対応できるようになります。
裁判での判例分析
裁判では、過去の裁判における判決である判決を踏まえて、現在行われている裁判の量刑を決めていきます。判例は裁判官だけでなく、被告、原告、弁護士などにも重要な資料となります。その分析にテキストマイニングが活用できます。
他にも、サービスや製品のクレーム情報から隠れていたユーザーのニーズを探し出したり、医療や福祉などの現場報告から改善点を見つけたりなど、さまざまな活用が始まっています。
テキストマイニングで使われている技術
テキストマイニングは、どのような技術、手法を使って分析するのでしょうか。利用するツールによって機能や分析手法は異なりますが、代表的な技術や手法を紹介します。
文章を分解する「形態素解析」「構文解析」
ツールによって使われる技術に違いがありますが、基本的には分析の前にテキストデータに対して形態素解析や構文分析という処理を行います。というのも、構造化されていない自然な文章をそのままコンピューターで分析できるわけではないからです。
形態素とは、文章を構成する最小単位のことです。例えば、「これはペンである」は
「これ は ペン で ある」
というように単語、品詞ごとに分解していきます。テキストマイニングでは、このように文章を分解した形態素、また、主語-述語といった構文などを踏まえて分析することになります。
話題を見つける「ワードクラウド」
よく使われる単語の頻出度合いを調べる手法です。頻出度の高いものを大きく目立つように、低いものを小さく表示することで、よく使われる言葉の傾向を見ることができます。はやっている言葉、話題にされているテーマなどを探すのに向いています。
相関関係から意図や背景を探る「共起ネットワーク分析」
ある言葉に関連する言葉の群を分析することで、背景を探すのが共起ネットワーク分析です。
例えば、ある商品に対する評価をSNSで調べるとします。例えば「犬」について調べるときに、関連するキーワードとして「ペット」「介助犬」「獣医」「犬種」などさまざまな言葉が挙げられます。どの言葉と強く関連しているかを調べることによって、そのテーマが扱われている背景や傾向を見ることができます。
このように関連して使われる言葉などを含めて、分析するのが共起ネットワーク分析です。
感情を分析する「センチメント分析」
SNSやブログなどに書き込まれた文章から、感情を分析する手法です。
「良い」「楽しい」「うれしい」「好き」などはポジティブ、「嫌い」「悲しい」「まずい」などはネガティブと評価するというように分類して、ポジティブかネガティブか、あるいはどちらでもないかを分析します。商品のイメージ、広告の評価、あるいは映画などの作品、芸能人、政治の人気調査にも利用できます。
テキストマイニングを扱う大学の学部、学科
大学の研究で過去の論文、文献資料を調べたり、膨大な調査資料を分析することは昔から行われていました。
例えば、法学部では法律はもちろん、過去の判例を探すこともあるでしょう。古典文学の研究では、膨大な古典作品を調べていきます。理工系でも、新しい技術を用いた製品を開発する際には、特許について調べなくてはいけません。
それは文系、理系を問わず、どのような学部、学科でも同じであり、過去の膨大なテキストデータを分析することは大学では珍しいことではありません。そこにテキストマイニングの手法を活用することで、新たな発見につながることもあるでしょう。
「数理・データサイエンス・AI教育プログラム認定制度」に基づいてさまざまな大学がデータサイエンスに関する新しい学びを始めていますし、これからも増えてくるでしょう。テキストマイニングそのものに興味があるなら、この制度に認定されている大学を目指すのもよいでしょう。
コールセンター、マーケティング、リーガルテック(法律)、BI、製造業、医療や介護、ビッグデータ分析、特許