テキストマイニング(読み)てきすとまいにんぐ(英語表記)text mining

デジタル大辞泉 「テキストマイニング」の意味・読み・例文・類語

テキスト‐マイニング(text mining)

文章対象としたデータマイニングソーシャルメディアやウェブ上の口コミなどの大量の文字情報自然言語処理などで分析し、有用な情報を抽出する技術をさす。

出典 小学館デジタル大辞泉について 情報 | 凡例

日本大百科全書(ニッポニカ) 「テキストマイニング」の意味・わかりやすい解説

テキストマイニング
てきすとまいにんぐ
text mining

コンピュータを使い、文章のデータから役にたつ情報や問題点などを抽出し分析する手法。マイニングとは英語で「地下資源採掘」のことで、大量の文書データから有用な情報や必要な知識を発掘することが語源となっている。文章を句読点慣用句品詞などでくぎり、くぎられた一つ一つの要素がもつ、順序、つながり、使用頻度、時間的変化、語意の性質といった特性からデータマイニングの手法で解析することで、目的とする情報や傾向を抽出することができる。

 人工知能の研究の一部として1980年代後半に登場した分析方法で、一般的な言語学や自然言語処理、言語情報学などのさまざまな分野の研究が応用されている。インターネットの普及によって電子化された文章のデータ収集が容易になり、テキストマイニングは幅広い分野で使うことができるようになった。ビジネスのマーケティングや市場調査分野では、ブログやミニブログなどのソーシャルメディアへの書き込みから、特定の商品に対する反応や消費動向を分類して解析を行い、商品の評価や問題点を集計してグラフなどへ可視化する手法が用いられている。

 日本語のテキストマイニングの場合、分析結果信頼性を向上させるためにも、どのように文章をくぎるかという「分かち書き処理」が、当初から重要な課題になっている。分かち書き処理を使った分析では、まず文章を形態素(意味をもつ最小の言語単位)という要素にくぎり、小分けした要素に対し、文法的な属性を特定するための形態素解析を実施する。テキストマイニングではこのような形態素解析の結果を集計し、さらに必要な情報を選別する意味解釈の解析を施すことで、特定の内容を抽出している。

[編集部]

出典 小学館 日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について 情報 | 凡例

最新 心理学事典 「テキストマイニング」の解説

テキストマイニング
テキストマイニング
text mining

テキストデータを対象としたデータマイニングをとくにテキストマイニングとよぶ。データマイニングdata miningと同様,大規模なデータの中から有益な情報を見つけ出して抽出しようとするものである。ただしテキストマイニングでは,データが文書集合document collectionであり,通常のデータマイニングのようには構造化されていない点がデータマイニングとは異なる。文書集合とは任意のテキストベースの文書documentを集めたものであり,通常その文書数は数千から数千万に及ぶ。たとえば,『Psychological Review』誌に掲載された論文はこれまでに5000編を超えているが,これも文書集合の一つである。またその要旨だけを集めたものや,特定のキーワードで絞り込んだ結果得られた論文を集めたものも,それぞれ一つの文書集合である。文書集合は初期状態から変化しない静的なものと,随時変更や修正などが加わる動的なものに分類できる。先の例ではそれぞれの論文が文書である。

 テキストマイニングもデータマイニングと同様のプロセスで行なわれる。データマイニングでも,マイニングの前処理であるデータクリーニングとデータテーブルに多くの労力が割かれるが,テキストマイニングではこの段階が本質的であるといえる。

 テキストマイニングの前処理では文書は多くの場合,文章あるいは語の単位で区切られる。さらに,品詞の同定とタグ付け,構文解析,カテゴリー化,語句やコンセプトの抽出とラベル付けなどが行なわれ,マイニングのための定型のデータセットが構築される。日本語のテキストの場合,テキストを分かち書きして語を同定する必要もある。さらに必要に応じて文書の縮約や階層化が行なわれる。この段階においてテキストマイニングは情報検索,情報抽出,コーパスに基づく計算機言語学などの自然言語処理の技術に頼る部分が大きい。これらのプロセスは文脈や目的に応じて試行錯誤的に行なわれる。マイニングプロセスでは,主として要素の分布distribution,頻出集合frequent set,連合associationの同定とその分析や特徴の抽出が行なわれる。要素としては語word,語句term,キーワードkeyword,コンセプトconceptが用いられることが多い。 →データマイニング
〔吉村 宰〕

出典 最新 心理学事典最新 心理学事典について 情報