ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
インストール
ブラウザよりも高速アクセス!
 

Q学習

索引 Q学習

Q学習(Qがくしゅう、Q-learning)は、機械学習分野における強化学習の一種である。.

10 関係: 強化学習マルコフ決定過程ランダムボルツマン分布エージェントコロナ社 (出版社)状態遺伝的アルゴリズム集合機械学習

強化学習

強化学習(きょうかがくしゅう、Reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策()を学習する。代表的な手法としてTD学習やQ学習が知られている。 最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。.

新しい!!: Q学習と強化学習 · 続きを見る »

マルコフ決定過程

マルコフ決定過程 (マルコフけっていかてい、Markov Decision Process; MDP) は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。.

新しい!!: Q学習とマルコフ決定過程 · 続きを見る »

ランダム

ランダム(random)とは、事象の発生に法則性(規則性)がなく、な状態である。ランダムネス(randomness)、無作為性(むさくいせい)ともいう。 事象・記号などのランダムな列には秩序がなく、理解可能なパターンや組み合わせに従わない。個々のランダムな事象は定義上予測不可能であるが、多くの場合、何度も試行した場合の結果の頻度は予測可能である。例えば、2つのサイコロを投げるとき、1回ごとの出目は予測できないが、合計が7になる頻度は4になる頻度の2倍になる。この見方では、ランダム性とは結果の不確実性の尺度であり、確率・情報エントロピーの概念に適用される。 数学、確率、統計の分野では、ランダム性の正式な定義が使用される。統計では、事象空間の起こり得る結果に数値を割り当てたものを確率変数(random variable)という。この関連付けは、事象の確率の識別および計算を容易にする。確率変数の列を(random sequence)という。ランダム過程(不規則過程、確率過程)は、結果が決定論的パターンに従わず、確率分布によって記述される進化に従う確率変数の列である。これらの構造と他の構造は、確率論や様々なランダム性の応用に非常に有用である。 ランダム性は、よく定義された統計的特性を示すために統計で最も頻繁に使用される。ランダムな入力(や擬似乱数発生器など)に依存するモンテカルロ法は、計算科学などの科学において重要な技術である。これに対し、では乱数列ではなく一様分布列を使用している。 無作為抽出(random selection)は、ある項目を選択する確率が母集団内におけるその項目の割合と一致している集団から項目を選択する方法である。例えば、赤い石10個と青い石90個を入れた袋に入れた場合、この袋から何らかのランダム選択メカニズムによって石を1個選択した時にそれが赤い石である確率は1/10である。しかし、ランダム選択メカニズムによって実際に10個の石を選択したときに、それが赤1個・青9個であるとは限らない。母集団が識別可能な項目で構成されている状況では、ランダム選択メカニズムは、選択される項目に等しい確率を必要とする。つまり、選択プロセスが、母集団の各メンバー(例えば、研究対象)が選択される確率が同じである場合、選択プロセスはランダムであると言うことができる。.

新しい!!: Q学習とランダム · 続きを見る »

ボルツマン分布

ボルツマン分布(ボルツマンぶんぷ、)は、一つのエネルギー準位にある粒子の数(占有数)の分布を与える理論式の一つである。ギブス分布とも呼ばれる。気体分子の速度の分布を与えるマクスウェル分布をより一般化したものに相当する。 量子統計力学においては、占有数の分布がフェルミ分布に従うフェルミ粒子と、ボース分布に従うボース粒子の二種類の粒子に大別できる。ボルツマン分布はこの二種類の粒子の違いが現れないような条件におけるフェルミ分布とボーズ分布の近似形(古典近似)である。ボルツマン分布に従う粒子は古典的粒子とも呼ばれる。 核磁気共鳴および電子スピン共鳴などにおいても、磁場の中で分裂した2つの準位の占有率はボルツマン分布に従う。.

新しい!!: Q学習とボルツマン分布 · 続きを見る »

エージェント

ージェント (agent)とは、本人から委任あるいは授権された代理権限の範囲内で、本人に代わって取引、契約など法律行為をなす者である。日本語では代理人のことを示す。なお、組織や法人として活動しているものをエージェンシー(agency)という。.

新しい!!: Q学習とエージェント · 続きを見る »

コロナ社 (出版社)

ナ社(ころなしゃ、英称:CORONA PUBLISHING CO.,LTD.)は、理学、工学などの大学・高専向け教科書、その他専門書を専門とする出版社。文部科学省検定済教科書の発行を行う。.

新しい!!: Q学習とコロナ社 (出版社) · 続きを見る »

状態

態(じょうたい、)は、 ある事物・対象の、時間とともに変化しうる性質・ありさま等を指す言葉である。 分野によってさまざまな意味で使われる。.

新しい!!: Q学習と状態 · 続きを見る »

遺伝的アルゴリズム

遺伝的アルゴリズム(いでんてきアルゴリズム、英語:genetic algorithm、略称:GA)とは、1975年にミシガン大学のジョン・H・ホランド(John Henry Holland)によって提案された近似解を探索するメタヒューリスティックアルゴリズムである。人工生命同様、偶然の要素でコンピューターの制御を左右する。4つの主要な進化的アルゴリズムの一つであり、その中でも最も一般的に使用されている。.

新しい!!: Q学習と遺伝的アルゴリズム · 続きを見る »

集合

数学における集合 (しゅうごう、set, ensemble, Menge) とは、大雑把に言えばいくつかの「もの」からなる「集まり」である。集合を構成する個々の「もの」のことを元 (げん、; 要素) という。 集合は、集合論のみならず現代数学全体における最も基本的な概念の一つであり、現代数学のほとんどが集合と写像の言葉で書かれていると言ってよい。 慣例的に、ある種の集合が系 (けい、) や族 (ぞく、) などと呼ばれることもある。実際には、これらの呼び名に本質的な違いはないが細かなニュアンスの違いを含むと考えられている。たとえば、方程式系(「相互に連立する」方程式の集合)、集合族(「一定の規則に基づく」集合の集合)、加法族(「加法的な性質を持つ」集合族)など。.

新しい!!: Q学習と集合 · 続きを見る »

機械学習

機械学習(きかいがくしゅう、machine learning)とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。.

新しい!!: Q学習と機械学習 · 続きを見る »

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »