8 関係: 多変量解析、データマイニング、分類 (統計学)、アルゴリズム、ウォード法、自己組織化写像、K平均法、教師なし学習。
多変量解析
(たへんりょうかいせき、multivariate analysis)あるいは(たへんりょうとうけい、)とは、複数の結果変数からなる多変量データを統計的に扱う手法。主成分分析、因子分析、クラスター分析などがある。一般に、多変量解析を行うためには計算負荷が高く手計算ではきわめて困難だが、コンピュータの発展により、容易に実行できるようになった。 近年では共分散構造分析(「構造方程式モデリング」とも言う)が普及してきている。一方、探索的多変量解析で総称される各種の手法がデータマイニングなどでよく使われるようになっている。.
新しい!!: データ・クラスタリングと多変量解析 · 続きを見る »
データマイニング
データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では"Data mining"の語の直接の起源となった研究分野であるknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。.
新しい!!: データ・クラスタリングとデータマイニング · 続きを見る »
分類 (統計学)
分類(ぶんるい、classification)や統計的分類や統計的識別とは、統計学において、データを複数のクラス(グループ)に分類すること。2つのクラスに分ける事を二項分類や二値分類、多数のクラスに分ける事を多クラス分類という。Y.
新しい!!: データ・クラスタリングと分類 (統計学) · 続きを見る »
アルゴリズム
フローチャートはアルゴリズムの視覚的表現としてよく使われる。これはランプがつかない時のフローチャート。 アルゴリズム(algorithm )とは、数学、コンピューティング、言語学、あるいは関連する分野において、問題を解くための手順を定式化した形で表現したものを言う。算法と訳されることもある。 「問題」はその「解」を持っているが、アルゴリズムは正しくその解を得るための具体的手順および根拠を与える。さらに多くの場合において効率性が重要となる。 コンピュータにアルゴリズムをソフトウェア的に実装するものがコンピュータプログラムである。人間より速く大量に計算ができるのがコンピュータの強みであるが、その計算が正しく効率的であるためには、正しく効率的なアルゴリズムに基づいたものでなければならない。.
新しい!!: データ・クラスタリングとアルゴリズム · 続きを見る »
ウォード法
Ward法(ウォードほう、Ward's method)は、クラスター分析の時に使用される、クラスター間の距離を定義する距離関数のひとつ。 今、集合PとQがあるとき、Ward法では、 で定義されるd(P,Q)を、PとQの距離とする。 ただし、E(A)は、Aのすべての点からAの質量中心までの距離の二乗の総和。.
新しい!!: データ・クラスタリングとウォード法 · 続きを見る »
自己組織化写像
自己組織化写像(じこそしきかしゃぞう、Self-organizing maps, SOM, Self-organizing feature maps, SOFM)はニューラルネットワークの一種であり、大脳皮質の視覚野をモデル化したものである。自己組織化写像はコホネンによって提案されたモデルであり、教師なし学習によって入力データを任意の次元へ写像することができる。主に1~3次元への写像に用いられ、多次元のデータの可視化が可能である。出力となる空間をマップ (map)、競合層 (competitive layer)、もしくは出力層 (output layer) と呼ぶ。出力層に対して入力データの空間を入力層(input layer)と呼ぶこともある。自己組織化写像はコホネンマップ (Kohonen map)、コホネンネットワーク (Kohonen network)、自己組織化マップ、ソム (SOM) などと呼ぶこともある。 自己組織化写像は複数の人工ニューロンが接続された構造である。この人工ニューロンはノード (node)、もしくはユニット (unit) と呼ぶこともある。.
新しい!!: データ・クラスタリングと自己組織化写像 · 続きを見る »
K平均法
k平均法(kへいきんほう、k-means clustering)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhus が1957年に発表し、Stuart Lloyd が1957年に考案し、E.W.Forgy が1965年に発表し、James MacQueen が1967年に発表し k-means と命名した。 数式で表現すると、下記最適化問題を解くアルゴリズム。本アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。 単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見するさまざまな応用手法が提案されている。上記の最適化問題はNP困難であるが、k-平均法は局所解を求める効率的なヒューリスティックである。k-平均法は混合正規分布に対するEMアルゴリズムの特殊な場合である.
新しい!!: データ・クラスタリングとK平均法 · 続きを見る »
教師なし学習
教師なし学習(きょうしなしがくしゅう, Unsupervised Learning)とは、機械学習の手法の一つである。「出力すべきもの」があらかじめ決まっていないという点で教師あり学習とは大きく異なる。データの背後に存在する本質的な構造を抽出するために用いられる。 教師あり学習は、その「出力すべきもの」も入力として与える手法であり、データの背後に存在する本質的な構造を抽出するよりむしろ、思い通りの出力を再現する機械の構成に用いられる。 具体的な例として以下のようなものがある。.
新しい!!: データ・クラスタリングと教師なし学習 · 続きを見る »