目次
強化学習
強化学習(きょうかがくしゅう、、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。 強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる。 この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。
マルコフ連鎖
マルコフ連鎖(マルコフれんさ、Markov chain)とは、確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的(有限または可算)なもの(離散状態マルコフ過程)をいう。また特に、時間が離散的なもの(時刻は添え字で表される)を指すことが多い。マルコフ連鎖は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である(マルコフ性)。各時刻において起こる状態変化(遷移または推移)に関して、マルコフ連鎖は遷移確率が過去の状態によらず、現在の状態のみによる系列である。特に重要な確率過程として、様々な分野に応用される。
マルコフ性
マルコフ性(マルコフせい、Markov property)とは、確率論における確率過程の持つ特性の一種で、その過程の将来状態の条件付き確率分布が、現在状態のみに依存し、過去のいかなる状態にも依存しない特性を持つことをいう。 すなわち、過去の状態が与えられたとき、現在の状態(過程の経路)は条件付き独立である。 ロシア人数学者のアンドレイ・マルコフにちなんで名付けられた。 マルコフ性のある確率過程をマルコフ過程と呼び、主に以下のような種類がある。
ロボット工学
ロボット工学(ロボットこうがく、)は、ロボットに関する技術を研究する学問。ロボットの手足などを構成するためのアクチュエータや機構に関する分野、外界の情報を認識・知覚するためのセンサやセンシング手法に関する分野、ロボットの運動や行動ロボットの制御に関する分野、ロボットの知能など人工知能に関する分野などに大別される。 語源としてはアイザック・アシモフが自著の一連のロボットが登場するSF小説のために、robotに物理学(physics)などに使われている語尾「-ics」を付けることで作った造語である。アシモフの小説内に出てくる「ロボット工学三原則」は、以降のロボット物SFに大きな影響を与えたのみならず、現実のロボット工学においても研究上の倫理的指標のひとつとなっている。また、「ロボティクスの父」や「ロボットの父」と呼ばれることもあるジョセフ・F・エンゲルバーガー博士はアシモフの小説に影響されていた。
ロイド・シャープレー
ロイド・ストウェル・シャープレー(Lloyd Stowell Shapley、1923年6月2日 - 2016年3月12日)は、アメリカ合衆国の経済学者、数学者。カリフォルニア大学ロスアンジェルス校(UCLA)名誉教授。UCLAでは数学部と経済学部の双方に所属している。数理経済学、とりわけゲーム理論への貢献で広く知られており、ゲーム理論の分野における権威と見なされている。 2012年に(アルヴィン・ロスとともに)ノーベル経済学賞を受賞。なお、姓についてはシャープリー、シャプリー、シャプレーと表記する場合もある。
ベルマン方程式
ベルマン方程式のフローチャート ベルマン方程式(ベルマンほうていしき、Bellman equation)は、動的計画法(dynamic programming)として知られる数学的最適化において、最適性の必要条件を表す方程式であり、発見者のリチャード・ベルマンにちなんで命名された。動的計画方程式 (dynamic programming equation)とも呼ばれる。 ベルマン方程式は、決定問題(decision problem)において、ある時刻の初期選択と、それ以降の決定問題の価値との関係を記述する。これにより、動的な最適化問題を、ベルマンの最適性の原理が示す指針にしたがって、より単純な部分問題(subproblems)に分解するのである。
動的計画法
動的計画法(どうてきけいかくほう、Dynamic Programming, DP)は、計算機科学の分野において、アルゴリズムの分類の1つである。対象となる問題を複数の部分問題に分割し、部分問題の計算結果の記録を利用して全体の問題を解く手法を総称してこう呼ぶ。
線型計画法
線型計画法(せんけいけいかくほう、linear programming、略称: LP)は、数理計画法において、いくつかの1次不等式および1次等式を満たす変数の値の中で、ある1次式を最大化または最小化する値を求める方法である。線形計画法の対象となる最適化問題を線型計画問題という。
経済学
経済学(けいざいがく、economics)とは、経済についての学問、経済現象を対象とする社会科学の一領域である。 英語圏では従来political economy(政治経済学)と呼ばれてきたが、19 世紀後半以降、economics(経済学)と呼ばれるようになった。原語であるeconomicsという語彙は、新古典派経済学者アルフレッド・マーシャルの主著『経済学原理』(Principles of Economics, 1890年)によって誕生・普及したとされている。
見る マルコフ決定過程と経済学
製造業
製造業(せいぞうぎょう、)は、原材料などを加工することによって製品を生産・提供する産業で、鉱業・建設業とともに第二次産業を構成する一大分野である。 工業の中でもさらに重工業から軽工業までと幅広く、各国の産業構造によって異なる分布を見せ、概して経済活動において主要な位置付けとなる。 家庭用電気機械器具(家電)、自動車といった工業製品から、コンビニエンスストアで販売される弁当や飲料(加工食品)を調理・製造する産業までが製造業に含まれる。
見る マルコフ決定過程と製造業
部分観測マルコフ決定過程
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、partially observable Markov decision process; POMDP)はマルコフ決定過程 (MDP) の一般化であり,状態を直接観測できないような意思決定過程におけるモデル化の枠組みを与える. POMDP は実世界におけるあらゆる逐次的な意思決定過程をモデル化するのに十分であり,ロボットのナビゲーションや機械整備 (machine maintenance),および不確実な状況下でのプランニングなどに応用されている. POMDP はオペレーションズリサーチを起源とし,のちに人工知能や自動計画のコミュニティに引き継がれた.。
Q学習
Q学習(Qがくしゅう、Q-learning)は、機械学習分野における強化学習の一種である。
見る マルコフ決定過程とQ学習