目次
79 関係: Amazon Web Services、半精度浮動小数点数、単語の埋め込み、変分オートエンコーダー、実行時コンパイラ、中間表現、人工知能、人間のフィードバックによる強化学習、事前コンパイラ、仮想機械、強化学習、マイクロソフト、バイト対符号化、メタプログラミング、ライブラリ、ビームフォーミング、テンソル、ディープラーニング、ファインチューニング (機械学習)、ニューラルネットワーク、ベクトル化、インタプリタ、オラクル (企業)、オーム社、オープンソース、クラウドコンピューティング、グローバルインタプリタロック、コンピュータ・クラスター、コンピュータビジョン、Bf16、BSDライセンス、C++、Caffe、Chainer、Cloudflare、CUDA、生成的人工知能、DALL-E、音声合成、音声強調、音声認識、静的型付け、赤石雅典、自動微分、自然言語処理、英語、Facebook、FLOSS、GitHub、Graphics Processing Unit、... インデックスを展開 (29 もっと) »
Amazon Web Services
Amazon Web Services(アマゾン ウェブ サービス、略称:AWS)とは、Amazon Web Services, Inc. により提供されるクラウドコンピューティングサービスである。2006年にサービス提供が開始され、IaaS における世界的シェアが39%で1位。世界で数百万以上、日本国内においても数十万を超える顧客が AWS を利用している。 企業システムなどのインフラストラクチャとして用いられる IaaS で他サービスを圧倒的にリードしており、デファクトスタンダードである。ガートナー社が発行するマジック・クアドラントのクラウドインフラストラクチャとプラットフォームサービス (CIPS) において、12年連続でリーダーに選出されている。顧客を起点に考える顧客中心のイノベーションアプローチが採用され、サービスや機能の90%以上が顧客要望をベースとして開発およびリリースしている。
見る PyTorchとAmazon Web Services
半精度浮動小数点数
半精度浮動小数点数(はんせいどふどうしょうすうてんすう、half-precision floating point number)は浮動小数点方式で表現された数(浮動小数点数)の一種で、16ビット(2オクテット)の形式によりコンピュータ上で表現可能な浮動小数点数である。 IEEE 754-2008ではbinary16と名づけられている他、処理系や文脈によってs10e5やhalf、fp16などと表記される。
単語の埋め込み
単語の埋め込み(たんごのうめこみ、Word embedding)とは、自然言語処理(NLP)における一連の言語モデリングおよび特徴学習手法の総称であり、単語や語句が実ベクトル空間上に位置づけられる。単語の数だけの次元を持つ空間から、はるかに低い次元を持つ連続ベクトル空間へと数学的な埋め込みが行われる。 このマッピングを生成する方法として、ニューラルネットワーク、単語共起行列の、確率モデル、説明可能な知識に基づく方法、単語が現れる文脈における用語での明示的な表現、などがある。 単語と句の埋め込みを入力表現として用いると、構文解析や感情分析などのNLPタスクのパフォーマンスを向上させることが示されている。
変分オートエンコーダー
変分オートエンコーダー(Variational Auto-Encoder; VAE)はオートエンコーディング変分ベイズアルゴリズムに基づいて学習される確率項つきオートエンコーダ型ニューラルネットワークである。 ニューラルネットワークを用いた生成モデルの一種であり、深層潜在変数モデルの一種でもある。
実行時コンパイラ
実行時コンパイラ(じっこうじコンパイラ、、JITコンパイラ)とは、ソフトウェアの実行時にソースコードをコンパイルするコンパイラのこと。通常のコンパイラはコンパイルを実行前に事前に行い、これをJITと対比して事前コンパイラ (ahead-of-timeコンパイラ、AOTコンパイラ)と呼ぶ。
中間表現
中間表現(ちゅうかんひょうげん、Intermediate Representation、IR)は、コンピュータがデータをクロスプラットフォームで扱うため、あるいはその他多数のさまざまな目的のために使用されるデータ構造の表現である。 中間表現を用いたデータの抽象化は、コンピューティング分野では一般的な手法である。異なるプラットフォームで同等の情報を保持するデータを異なるフォーマットで扱う場合に、データを中間表現で表現することで複数フォーマットへの変換処理を効率化することを手助けできる、というのは、この手法のあまたある利点(あるいは応用)のごく1つである。
見る PyTorchと中間表現
人工知能
人工知能(じんこうちのう、artificial intelligence)、AI(エーアイ)とは、「『計算()』という概念と『コンピュータ()』という道具を用いて『知能』を研究する計算機科学()の一分野」を指す語。「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピュータに行わせる技術」、または、「計算機(コンピュータ)による知的な情報処理システムの設計や実現に関する研究分野」ともされる。大学でAI教育研究は、情報工学科や情報理工学科コンピュータ科学専攻などの組織で行われている(工学〔エンジニアリング〕とは、数学・化学・物理学などの基礎科学を工業生産に応用する学問)。 『日本大百科全書(ニッポニカ)』の解説で、情報工学者・通信工学者の佐藤理史は次のように述べている。
見る PyTorchと人工知能
人間のフィードバックによる強化学習
人間のフィードバックによる強化学習(、RLHF)は、AIモデルの出力において「人間の価値基準(人間の好み)」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。
事前コンパイラ
事前コンパイラ(Ahead-Of-Timeコンパイラ、AOTコンパイラ)とは、アプリケーション実行前に(事前に)ソースコードや中間表現(中間言語)を機械語へ変換(コンパイル)するコンパイラのこと。対義語は実行時コンパイラ(Just-In-Timeコンパイラ、JITコンパイラ)。
仮想機械
仮想機械(かそうきかい、仮想マシン、バーチャルマシン、virtual machine、VM)とは、アプリの使用を最適化する方法であり、コンピュータの動作を再現するソフトウェアである。すなわち、エミュレートされた仮想のコンピュータそのものも仮想機械という。仮想機械によって、1つのコンピュータ上で複数のコンピュータやオペレーティングシステム (OS) を動作させたり、別のアーキテクチャ用のソフトウェアを動作させることができ、アプリケーションが互いに干渉するのを防げる。 仮想機械によるアプローチは、企業や個人がレガシーアプリケーションに対処し、1台のコンピュータで処理できるさまざまな種類のアプリケーションを最大化することで、ハードウェアの使用を最適化するための一般的な方法である。
見る PyTorchと仮想機械
強化学習
強化学習(きょうかがくしゅう、、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。 強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる。 この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。
見る PyTorchと強化学習
マイクロソフト
マイクロソフト()は、アメリカ合衆国ワシントン州に本社を置く、ソフトウェアを開発、販売する会社である。1975年にビル・ゲイツとポール・アレンによって創業された。1985年にパソコン用OSのWindowsを開発。1990年にWindows向けのオフィスソフトとしてMicrosoft Officeを販売。1995年にウェブブラウザのInternet Explorerをリリース。2001年に家庭用ゲーム機のXboxを販売。2009年に検索エンジンのBingを設立。2010年にクラウドサービスとしてAzureを開始。2015年7月15日Microsoft Edgeを開発、そして展開。2024年2月時点での時価総額が世界1位。
バイト対符号化
バイト対符号化(ばいとついふごうか、Byte Pair Encoding、略してBPE)は、データ圧縮法のひとつで、可逆圧縮に分類される。 一般的な圧縮法と比較して圧縮速度が極端に遅いという欠点はあるが、展開速度は爆発的な速さである。また、展開ルーチンが非常に小さく作ることが可能であるという特徴を持つ。このような特徴から、性能の低いコンピュータ用のゲームソフトのデータ圧縮などに用いられることが多い。
メタプログラミング
メタプログラミング とはプログラミング技法の一種で、一般に「プログラムを記述するプログラム」を書くこと、またはそのプログラムを指す。対象言語に埋め込まれたマクロ言語によって行われることもある。
ライブラリ
ライブラリ()は、汎用性の高い複数のプログラムを再利用可能な形でひとまとまりにしたものである。ライブラリと呼ぶときは、それ単体ではプログラムとして動作させることはできない、つまり実行ファイルではない場合がある。ライブラリは他のプログラムに何らかの機能を提供するコードの集まりと言える。ソースコードの場合と、オブジェクトコード、あるいは専用の形式を用いる場合とがある。たとえば、UNIXのライブラリはオブジェクトコードをarと呼ばれるアーカイブツール(アーカイバ)でひとまとめにして利用する。図書館()と同様にプログラム(算譜)の書庫であるので、索引方法が重要である。 また、ソフトウェア以外の再利用可能なものの集合について使われることもある(音声データなど)。
ビームフォーミング
ビームフォーミング(beamforming)とは所定の方向に波(電波、音波など)の指向性を高める技術。
テンソル
テンソル(tensor, Tensor)とは、線形的な量または線形的な幾何概念を一般化したもので、基底を選べば、多次元の配列として表現できるようなものである。しかし、テンソル自身は、特定の座標系によらないで定まる対象である。個々のテンソルについて、対応する量を記述するのに必要な配列の添字の組の数は、そのテンソルの階数とよばれる。 例えば、質量や温度などのスカラー量は階数0のテンソルだと理解される。同様にして力や運動量などのベクトル的な量は階数1のテンソルであり、力や加速度ベクトルの間の異方的な関係などをあらわす線型変換は階数2のテンソルで表される。 物理学や工学においてしばしば「テンソル」と呼ばれているものは、実際には位置や時刻を引数としテンソル量を返す関数である「テンソル場」であることに注意しなければならない。いずれにせよテンソル場の理解のためにはテンソルそのものの概念の理解が不可欠である。
見る PyTorchとテンソル
ディープラーニング
ディープラーニング()または深層学習(しんそうがくしゅう)とは、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことであるディープラーニング(深層学習)の大家として世界的に知られるIan Goodfellow,Yoshua Bengio,Aaron Courvilleが著した"Deep Learning"という教科書のIntroductionの第4パラグラフ(pp.1-2)におけるディープラーニングの定義では、ニューラルネットワークについて全く触れられておらず、「概念の階層により、コンピューターは、単純な概念から複雑な概念を構築することにより、複雑な概念を学習できます。これらの概念がどのように相互に構築されているかを示すグラフを描くと、グラフは深く、多くの層があります。このため、このアプローチをAIディープラーニングと呼びます。」と概念の階層構造により定義している。
ファインチューニング (機械学習)
機械学習の文脈において、ファインチューニング(、微調整)は、事前学習したモデルの重みを新しいデータで訓練する転移学習の一つの手法である。ファインチューニングは、ニューラルネットワーク全体で行うことも、また一部の層に対してのみ行うこともできる。後者の場合、ファインチューニングを行わない層は「凍結」され、バックプロパゲーションの過程で更新されない。
ニューラルネットワーク
(人工知能の分野で)ニューラルネットワーク(neural network; NN、神経網)は、生物の学習メカニズムを模倣した機械学習手法として広く知られているものでありCharu C.Aggarwal著『ニューラルネットワークとディープラーニング』(データサイエンス大系シリーズ)、学術図書出版社、2022年。ISBN 978-4780607147, 第一章「ニューラルネットワークとは」「はじめに」、pp.1-2、「ニューロン」と呼ばれる計算ユニットをもち、生物の神経系のメカニズムを模倣しているものである。人間の脳の神経網を模した数理モデル『2020年版 基本情報技術者 標準教科書』オーム社、p.55。模倣対象となった生物のニューラルネットワーク(神経網)とはっきり区別する場合は、人工ニューラルネットワーク (artificial neural network) と呼ばれる。
ベクトル化
ベクトル化(ベクトルか、)。
インタプリタ
インタプリタ(interpreter)とは、プログラミング言語で書かれたソースコードないし中間表現を逐次解釈しながら実行するプログラムのこと。「インタープリタ」「インタープリター」などと表記することもある。 インタプリタは、およそ次のいずれかの動作をするプログラムである。
オラクル (企業)
オラクル()は、アメリカ合衆国カリフォルニア州創業、テキサス州に本拠を置く、民間法人や公的機関を対象とするビジネス用途に特化したソフトウェア会社である。日本法人は日本オラクル。 2007年には世界で第3位のソフトウェア会社となる。
オーム社
株式会社オーム社(オームしゃ、)は、理工学専門書・コンピュータ関連書などを出版する日本の出版社。社名の由来は、抵抗の単位であるオーム(Ω)から。
見る PyTorchとオーム社
オープンソース
オープンソース(open source)は、専らを促進する目的で、コンピュータプログラムの著作権の一部を放棄し、ソースコードの自由な利用および頒布を万人に許可するソフトウェア開発モデル。この開発モデルでは、コンピュータで実行できるが人間が容易に理解・変更できないオブジェクトコードだけでなく、ソースコードも含めて自由な再頒布を許可するライセンスのもとで公開する。 オープンソースを推進するために設立されたオープンソース・イニシアティブは、ソフトウェアがオープンソースであるための要件を定めた「オープンソースの定義」を策定した。
クラウドコンピューティング
クラウドコンピューティング(クラウド計算、Cloud computing)は、インターネットなどのコンピュータネットワークを経由して、コンピュータ資源をサービスの形で提供する利用形態である。略してクラウドと呼ばれることも多く、cloud とは英語で「雲」を意味する。クラウドの世界的な普及でオンラインであれば必要な時に必要なサービスを受けられるようになり、あらゆる業務が効率化され、社会の創造性を高めることに成功した。
グローバルインタプリタロック
グローバルインタプリタロック(, GIL)とは、プログラミング言語のインタプリタのスレッドによって保持されるスレッドセーフでないコードを、他のスレッドと共有してしまうことを防ぐための排他 ロックである。インタプリタのひとつのプロセスごとに必ずひとつの GIL が存在する。 プログラミング言語においてグローバルインタプリタロックを採用した場合、複数のスレッドを持つインタプリタプロセスの並行性を制限してしまう。プロセスをマルチプロセッサのマシンで実行させた場合、ほとんどあるいはまったく速度の向上が見られない。 こうしたロックを採用する理由として、下記のものがある。
コンピュータ・クラスター
コンピュータ・クラスターとは、複数のコンピュータを結合し、クラスター(葡萄の房)のようにひとまとまりとしたシステムのこと。単に「クラスター」または「クラスタリング」とも呼ばれる。1台のコンピュータでは得られないような、強力な計算性能や可用性を得ることができる。コンピュータ・クラスターは、クラスタリングを実現するためのハードウェアやソフトウェアなどにより構成される。但し、ネットワークを介してデータを入力して処理を開始するため、処理開始までの遅延が大きくなる欠点がある。
コンピュータビジョン
コンピュータビジョン()はコンピュータがデジタルな画像、または動画をいかによく理解できるか、ということを扱う研究分野である。工学的には、人間の視覚システムが行うことができるタスクを自動化することを追求する分野である。 この分野はコンピュータが実世界の情報を取得する全ての過程を扱うため、画像センシングのためのハードウェアから情報を認識するための人工知能的理論まで幅広く研究されている。また、ではコンピュータグラフィックスとコンピュータビジョンの融合が注目を集めている。 研究対象を大別すると、。
Bf16
bfloat16(brain floating point, bf16)は、コンピュータ内における16ビットの浮動小数点数の数値表現(フォーマット)である。 bfloat16形式はGoogleの人工知能研究グループであるGoogle Brainによって2018年に開発された、より機械学習での利用に適した比較的新しいフォーマットである。 16ビット浮動小数点形式の一般的なフォーマットであるfp16(IEEE754 16ビット/半精度浮動小数点形式)と比較した場合、数値の精度よりも数値が表現できる桁数の幅(ダイナミックレンジ)を重視した設計となっている。その特性上通常の整数計算には適しておらず、fp16の置き換えを意図したものではない。
見る PyTorchとBf16
BSDライセンス
BSDライセンス(ビーエスディー ライセンス、BSD licenses)は、フリーソフトウェアで使われているライセンス体系のひとつである。カリフォルニア大学によって策定され、同大学のバークレー校内の研究グループ、Computer Systems Research Groupが開発したソフトウェア群であるBerkeley Software Distribution (BSD) などで採用されている。
C++
C++(シープラスプラス)は、汎用プログラミング言語のひとつである。派生元であるC言語の機能や特徴を継承しつつ、表現力と効率性の向上のために、手続き型プログラミング・データ抽象・オブジェクト指向プログラミング・ジェネリックプログラミングといった複数のプログラミングパラダイムが組み合わされている。C言語のようにハードウェアを直接扱うような下位層向けの低水準言語としても、複雑なアプリケーションソフトウェアを開発するための上位層向け高水準言語としても使用可能である。アセンブリ言語以外の低水準言語を必要としないこと、使わない機能に時間的・空間的コストを必要としないことが、言語設計の重要な原則となっている。
見る PyTorchとC++
Caffe
CAFFE(Convolutional Architecture for Fast Feature Embedding)は、カリフォルニア大学バークレー校で開発されたディープラーニングのフレームワークである。オープンソースのソフトウェアであり、BSDライセンスの元に公開されている。ソースコードはC++で書かれており、Pythonインターフェイスが存在する。
Chainer
Chainer(チェイナー)は、ニューラルネットワークの計算および学習を行うためのオープンソースのソフトウェアライブラリである。バックプロパゲーション(誤差逆伝播法)に必要なデータ構造をプログラムの実行時に動的に生成する特徴があり、複雑なニューラルネットワークの構築を必要とするディープラーニング(深層学習)で用いられる。Python 2.x系および3.x系から利用でき、GPUによる演算をサポートしている。株式会社Preferred Networks(PFN)からリリースされている。2019年12月5日、開発元のPFNはフレームワーク開発を終了してChainerはメンテナンスフェーズへ移行すること、自社はChainerからFacebookが主導するPyTorchに順次移行することを発表した。 Chainerは"define-by-run"というモデル設計手法を取り入れた深層学習のフレームワークの先駆けで、後発のPyTorchなどにも大きな影響を与えた。Preferred Networks(PFN)が日本の機械学習系のベンチャー企業であることから、日本語の関連資料が多いという特徴があった。
Cloudflare
Firefoxで表示したもの。 Cloudflare, Inc.(クラウドフレア)は、コンテンツデリバリネットワーク(CDN)やインターネットセキュリティサービス、DDoS防御、分散型ドメイン名サーバシステムを提供するアメリカ合衆国の企業で、同社が提供するCDNは閲覧者とホスティングプロバイダー間でリバースプロキシとして動作する。DNSの変更でウェブサイトやモバイルアプリケーションに対応するネットワークの保護、速度向上や改善を実現している。本社はアメリカ合衆国カリフォルニア州サンフランシスコにあり、オフィスを米国(オースティン、シャンペーン、ニューヨーク、サンノゼ、シアトル、ワシントンD.C.)、トロント、リスボン、ミュンヘン、パリ、北京、シンガポール、シドニー、東京に持つ。
CUDA
CUDA(Compute Unified Device Architecture:クーダ)とは、NVIDIAが開発・提供している、GPU向けの汎用並列コンピューティングプラットフォーム(並列コンピューティングアーキテクチャ)およびプログラミングモデルである。専用のC/C++コンパイラ (nvcc) やライブラリ (API) などが提供されている。なおNVIDIA製GPUにおいては、OpenCL/DirectComputeなどの類似APIコールは、すべて共通のGPGPUプラットフォームであるCUDAを経由することになる。
見る PyTorchとCUDA
生成的人工知能
生成的人工知能(せいせいてきじんこうちのう、)または生成AI(せいせいエーアイ、)は、文字などの入力(プロンプト)に対してテキスト、画像、または他のメディアを応答として生成する人工知能システムの一種である。ジェネレーティブAI、ジェネラティブAIともよばれる。 生成的人工知能モデルは、訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる。 著名な生成AIシステムとして、OpenAIがGPT-3やGPT-4の大規模言語モデルMetz, Cade.
DALL-E
DALL-E (DALL·E) 及びDALL-E 2は、"prompts"と呼ばれる自然言語の記述からデジタル画像を生成する、OpenAIにより開発された深層学習モデル。2021年1月のOpenAIによるブログの投稿により明らかにされ、GPT-3の画像生成のために変更されたバージョンを使用する。2022年4月には、DALL-E 2が発表された。これは、「コンセプト、アトリビュート、スタイルを組み合わせることができる」より高い解像度でよりリアルな画像を生成するように設計された後継バージョンである。 OpenAIはいずれのモデルのソースコードも公開していない。2022年7月20日にDALL-E 2はベータ段階に入り、100万人の待機リストのメンバーに招待が送られた。ユーザは、毎月一定数の画像を無料で生成でき、有料でさらに行うことができる。以前は、倫理と安全性に関する懸念から研究プレビューのために事前選択されたユーザにアクセスが制限されていた。2022年9月28日に、DALL-E 2は誰でも利用可能になり、待機リストの要件は撤廃された。
音声合成
音声合成(おんせいごうせい、英: speech synthesis)とは、人間の音声を人工的に作り出すことである。
見る PyTorchと音声合成
音声強調
音声強調(おんせいきょうちょう、speech enhancement)は音声の特定成分を相対的に強調し質を改善する音声信号処理である。 改善の対象としては音声の明瞭度や音質など様々なものがある。SN比を改善する雑音抑制の技術は最も重要なもので、携帯電話、VoIP、電話会議などの通信の分野や、音声認識、補聴器での応用など多くの分野で利用されている。
見る PyTorchと音声強調
音声認識
音声認識(おんせいにんしき、speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である大辞泉。ヒトの(天然)音声認識と対比して自動音声認識(Automatic Speech Recognition; ASR)とも呼ばれる。 例として文字起こしや話者認識が挙げられる。
見る PyTorchと音声認識
静的型付け
静的型付け(せいてきかたづけ、static typing)は、値やオブジェクトの型安全性を、コンパイル時に検証するというコンピュータプログラミングの型システムの方法である。型の検査はソースコードの解析によって行われる。変数代入、変数束縛、関数適用、型変換といったプログラム記述箇所での型安全性がチェックされる。型エラーの場合は、コンパイルエラーに繋げられることが多い。 対義語は動的型付けであり、こちらでは値やオブジェクトの型安全性を実行時に検証する。型の検査はランタイムシステムの実行時型情報(RTTI)の照会などによる実行時プロセス上の解析で行われる。
赤石雅典
赤石 雅典(あかいし まさのり)は京都情報大学院大学の教授である。
見る PyTorchと赤石雅典
自動微分
自動微分(じどうびぶん、automatic differentiation, autodiff, AD)やアルゴリズム微分(algorithmic differentiation)とは、プログラムで定義された関数を解析し、関数の値と同時に偏導関数の値を計算するアルゴリズムである。 自動微分は複雑なプログラムであっても加減乗除などの基本的な算術演算や基本的な関数(指数関数・対数関数・三角関数など)のような基本的な演算の組み合わせで構成されていることを利用し、これらの演算に対して合成関数の偏微分の連鎖律を繰り返し適用することによって実現される。自動微分を用いることで偏導関数値を少ない計算量で自動的に求めることができる。
見る PyTorchと自動微分
自然言語処理
自然言語処理(しぜんげんごしょり、Natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」()との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては機械翻訳や仮名漢字変換が挙げられる。 自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などの精度や速度が一段と上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。
英語
英語(えいご、 、anglica)とは、インド・ヨーロッパ語族のゲルマン語派の西ゲルマン語群・アングロ・フリジア語群に属し、イギリス・イングランド地方を発祥とする言語である。
見る PyTorchと英語
Facebook(フェイスブック)は、オンライン・ソーシャルメディアおよびソーシャル・ネットワーキング・サービスであり、アメリカ合衆国カリフォルニア州メンローパークに本拠地を置くMeta(旧: Facebook, Inc.)の旗艦サービスである。 Facebookという名前は、アメリカの一部の大学が学生間の交流を促すために入学した年に提供している本の通称である「フェイスブック」(face book)に由来している。
FLOSS
FLOSSだけで構成されたデスクトップ画面 (Linux Mint+Xfce+Firefox+GIMP+VLCメディアプレーヤー) FLOSS(フロス)は、Free/Libre and Open Source Softwareの頭字語でありはフランス語で「自由な」の意。、自由ソフトウェアとオープンソースをまとめて表現する語である。Free/Open Source Software の頭字語を取ってFOSSとも呼ばれる。
GitHub
GitHub(ギットハブ)は、ソフトウェア開発のプラットフォームであり、ソースコードをホスティングする。コードのバージョン管理システムにはGitを使用する。Ruby on RailsおよびErlangで記述されており、アメリカのカリフォルニア州サンフランシスコ市に拠点を置くGitHub社によって保守されている。主な開発者はクリス・ワンストラス、P.J.ハイエット、である。 GitHub商用プランおよびオープンソースプロジェクト向けの無料アカウントを提供している。2019年1月より、プライベートリポジトリを無料で提供するようになった。2009年のユーザー調査によると、GitHubは最もポピュラーなGitホスティングサイトとなった。2023年にはユーザ数1億人を突破した。
Graphics Processing Unit
Graphics Processing Unit(グラフィックス プロセッシング ユニット、略してGPU)は、コンピュータゲームに代表されるリアルタイム画像処理に特化した演算装置あるいはプロセッサである。グラフィックコントローラなどと呼ばれる、コンピュータが画面に表示する映像を描画するための処理を行うICから発展した。特にリアルタイム3DCGなどに必要な、定形かつ大量の演算を並列にパイプライン処理するグラフィックスパイプライン性能を重視している。現在の高機能GPUは高速のビデオメモリ(VRAM)と接続され、頂点処理およびピクセル処理などの座標変換やグラフィックス陰影計算(シェーディング)に特化したプログラム可能な演算器(プログラマブルシェーダーユニット)を多数搭載している。
見る PyTorchとGraphics Processing Unit
Hugging Face
Hugging Face, Inc. (ハギングフェイス)は 機械学習 アプリケーションを作成するためのツールを開発しているアメリカの企業である。自然言語処理アプリケーション向けに構築された Transformers ライブラリや潜在拡散モデルを扱う Diffusers ライブラリなどのライブラリに加え、ユーザーが機械学習モデルやデータセットを共有するためのプラットフォームなどを提供している。
IA-32
IA-32(アイエー32、Intel Architecture 32)は80386の開発の際に定義された、16ビットx86を32ビットに拡張した命令セットアーキテクチャである。
Linux
Linux(リナックス、他の読みは#「Linux」の読み方で後述)とは、狭義にはUnix系オペレーティングシステムカーネルであるLinuxカーネルを指し、広義にはそれをカーネルとして周辺を整備したシステム全体のことをいう(GNU/Linuxも参照)。
LLVM
LLVM(エルエルヴィーエム、 またはエルエルブイエム)とは、コンパイル時、リンク時、実行時などあらゆる時点でプログラムを最適化するよう設計された、任意のプログラミング言語に対応可能なコンパイラ基盤である。当初は、LLVMの名称の由来は、Low Level Virtual Machine (低水準仮想機械) の略であるとしていたが、現在は、何の頭文字でもないとしている。
見る PyTorchとLLVM
MacOS
macOS(マックオーエス)は、Appleが開発・販売するMacのオペレーティングシステムである。当初の名称はMac OS X(マックオーエステン)で、のちにOS X(オーエステン)に改められていた(後述)。 技術的には直系ではないが、Classic Mac OS(Mac OS、System)の後継として、新たにBSD系UNIXをベースに開発された。
Metal (API)
Metal(メタル)はAppleのオペレーティングシステム上でサポートされる、オーバーヘッドの小さいローレベル(low level)なコンピュータグラフィックスAPIである。Metalでは、OpenGLとOpenCLに似た機能を一つのAPIに統合している。Metalはクロノス・グループによるVulkanや、マイクロソフトによるWindows向けのDirect3D 12といった、他のプラットフォームにおける類似のAPIによるパフォーマンス上の利点をmacOS/iPadOS/iOSにもたらしている。 MetalはC++11をベースとした新しいシェーディング言語、Metal Shading Language(MSL)を利用する。これはClangとLLVMによって実装されている。Metalはコンピュートシェーダーを導入することでGPGPUプログラミングのしやすさも向上している。
Microsoft Windows
Microsoft Windows(マイクロソフト ウィンドウズ)は、マイクロソフトが開発・販売するオペレーティングシステム (OS) の製品群である。グラフィカルユーザインタフェース (GUI) を採用している。Windows発売以前では高価なワークステーション(ハイエンドパソコンを上回る性能のデスクトップコンピュータ)でしか実現されていなかったマルチタスクやGUIを中心とした使い勝手の良さを、一般消費者が入手しやすい標準的な規格のパソコンに順次取り込んで行き、一般向けOSのシェアのほとんどを占めるに至り、今や大きな知名度を持つ。
NumPy
NumPyは、プログラミング言語Pythonにおいて数値計算を効率的に行うための拡張モジュールである。効率的な数値計算を行うための型付きの多次元配列(例えばベクトルや行列などを表現できる)のサポートをPythonに加えるとともに、それらを操作するための大規模な高水準の数学関数ライブラリを提供する。
NVIDIA
NVIDIA Corporation(エヌビディアコーポレーション)は、アメリカ合衆国カリフォルニア州サンタクララにある半導体メーカーであり、日本法人は東京都港区赤坂にある。ロゴはnVIDIAに見えるが表記は全て大文字のNVIDIAが正しい。 NV1 搭載ボード 半導体の中でも特にGPUの設計に特化しており、一般向けにはパーソナルコンピュータ(PC)に搭載されるGeForceシリーズやワークステーションに搭載されるQuadroシリーズ等のGPUが有名であり、実際2000年代前半まではゲーミング向けやクリエイティブ業務向けのGPU開発を事実上の専業としていた。しかし、CUDAの発表以降、同社のコアビジネスおよび開発リソースは、GPUによる汎用計算(GPGPU)専用設計のTeslaシリーズや、ARMプロセッサと統合されたSoCであるTegraなどに移行している。2024年7月現在、時価総額世界一位の企業である。
Open Neural Network Exchange
Open Neural Network Exchange(略称:ONNX)とは、オープンソースで開発されている機械学習や人工知能のモデルを表現する為の代表的なフォーマットである。実行エンジンとしてONNX Runtimeも開発されている。
見る PyTorchとOpen Neural Network Exchange
OpenAI
OpenAI(オープンエーアイ、オープンAI)は、非営利法人OpenAI, Inc.とその子会社である営利法人OpenAI Global, LLCなどの法人から構成される、人工知能(AI)の開発を行っているアメリカ合衆国の企業である。人類全体に利益をもたらす汎用人工知能(AGI)を普及・発展させることを目標に掲げ、AI分野の研究を行っている。対話型生成AIのChatGPTが代表的なサービス。 法人間の支配関係は複雑である。
Preferred Networks
株式会社Preferred Networksは、日本のIoT分野での活用を中心にディープラーニングの研究と開発を行うスタートアップ企業である。同社の代表取締役社長である西川徹、岡野原大輔らが設立した株式会社Preferred Infrastructure(PFI)から2014年3月26日にスピンアウトした。
Python
Python(パイソン)はインタープリタ型の高水準汎用プログラミング言語である。
PyTorch Lightning
PyTorch Lightning は、ディープラーニングフレームワークである PyTorch に高レベルのインターフェイスを提供するオープンソースのPython ライブラリ。 軽量で高性能なフレームワークであり、PyTorch コードを編成して研究をエンジニアリングから切り離し、ディープラーニングの実験を読みやすく再現しやすくする。割り当てられたハードウェアで簡単に実行できると同時にハードウェアに依存しないような、スケーラブルな深層学習モデルを作成するように設計されている。 PyTorch Lightningは、あらゆるタイプの研究に究極の柔軟性を提供し、最先端のAI機能を実装する上で必要となる定型的なエンジニアリングを削減する。
Q学習
Q学習(Qがくしゅう、Q-learning)は、機械学習分野における強化学習の一種である。
見る PyTorchとQ学習
Stable Diffusion
Stable Diffusion(ステイブル・ディフュージョン)は、2022年に公開されたディープラーニング(深層学習)のである。主にテキスト入力に基づく画像生成(text-to-image)に使用されるが、他にも(inpainting)、アウトペインティング(outpainting)、テキストプロンプトによって誘導される画像に基づく画像生成(image-to-image)にも使用される。 Stable Diffusionは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル(latent diffusion model)であり、深層生成ニューラルネットワーク(deep generative neural network)の一種である。このモデルは、EleutherAIとLAIONの支援を受け、Stability AI、CompVis LMU、Runwayの三者が共同で公開した。2022年10月、Stability AIは、とが主導するラウンドで1億100万米ドルを調達した。
TechCrunch
TechCrunch(テッククランチ)は、アメリカのブログサイト(ニュースサイト)である。主にIT系のスタートアップ(ベンチャー)やWebに関するニュースを配信している。IT系の起業家、経営者が主な読者対象者であり、その他デベロッパー(ソフトウェア製作者)やデザイナー、マーケッター(マーケティング担当者)の読者が多い。 2011年に始まった日本語版の『TechCrunch Japan』では、アメリカのTechCrunchに掲載された記事の翻訳と、日本のスタートアップに関する独自の記事も掲載されている。日本語版は2022年3月31日に記事の新規配信を停止し、2022年5月1日にサービスを終了した。
TensorFlow
TensorFlow(テンソルフロー、テンサーフロー)とは、Googleが開発しオープンソースで公開している、機械学習に用いるためのソフトウェアライブラリである。
Transformer (機械学習モデル)
Transformer(トランスフォーマー)は、2017年6月12日にGoogleの研究者等が発表した深層学習モデルであり、主に自然言語処理 (NLP)の分野で使用される。 自然言語などの時系列データを扱って翻訳やテキスト要約などのタスクを行うべく設計されているのは回帰型ニューラルネットワーク (RNN)と同様だが、Transformer の場合、時系列データを逐次処理する必要がないという特徴がある。たとえば、入力データが自然言語の文である場合、文頭から文末までの順に処理する必要がない。このため、Transformer では 回帰型ニューラルネットワークよりもはるかに多くの並列化が可能になり、トレーニング時間が短縮される。
見る PyTorchとTransformer (機械学習モデル)
U-Net
U-Netは、フライブルク大学コンピュータサイエンス学部で生物医学画像の分割用に開発された畳み込みニューラルネットワーク(CNN)である。このネットワークは完全畳み込みニューラルネットワークを基にしていて、より少ないトレーニング画像で動作し、より正確なセグメンテーションができるように、アーキテクチャが修正・拡張されている。U-Netアーキテクチャを使用した最新(2015年)のGPUでは、512×512の画像のセグメンテーションにかかる時間は1秒未満である。 U-Netアーキテクチャは、反復画像ノイズ除去のための拡散モデルにも採用されている。この技術は、DALL-E、Midjourney、Stable Diffusionなど、多くの最新の画像生成モデルの基盤となっている。
Uber
ウーバー・テクノロジーズ()は、一般的にUber(ウーバー)として知られているアメリカ合衆国のテクノロジー企業である。同社のサービスには、ライドシェア・フードデリバリー (Uber Eats)・宅配便 (クーリエ便含む)・貨物輸送・との提携による電動自転車や電動スクーターのレンタルなどがある。同社はサンフランシスコに本社を置き、世界900以上の都市圏で事業を展開している。ギグエコノミーの最大手企業の一つである。 Uberは月間のアクティブユーザー数が世界中で9300万人を超えると推定されている。米国では、2021年2月時点でUberがライドシェア市場の68%、食品配達市場の21%というシェアを占めている。Uberはシェアリングエコノミーで突出しており、Uberが引き起こした各業界の変化は「ウーバー化」(Uberisation)とも称されている。スタートアップ企業が自社の事業を「○○分野のUber」と説明する例も多く見られる。 Uberは、運転手を独立請負業者として扱っている点や、タクシー事業の混乱、交通渋滞増加といった理由で批判されている。とりわけトラビス・カラニックがCEOだった時期の同社は様々な非倫理的慣行や現地の規制を無視したことで批判された。
見る PyTorchとUber
X64
x64またはx86-64 とは、x86アーキテクチャを64ビットに拡張した命令セットアーキテクチャ。 実際には、AMDが発表したAMD64命令セット、続けてインテルが採用したIntel 64命令セット(かつてIA-32eまたはEM64Tと呼ばれていた)などを含む、各社のAMD64互換命令セットの総称である。x86命令セットと互換性を持っていることから、広義にはx86にx64を含む場合がある。 なお、インテルはIntel 64の他にIA-64の名前で64ビット命令セットアーキテクチャを開発・展開していたが、これは全くの別物であり、x64命令セット、x86命令セットのいずれとも互換性がない。 2023年4月にはIntelが、x64のLegacyモードを切り捨てることによりLongモードのみにしてサブセット化することで回路をシンプルにして性能向上するうえで問題になっているボトルネックを解消することを目標にしたX86-Sの提案の文書を公表した。もっとも、構想が発表されただけで、具体的な製品化に関する情報は発表されていない。
見る PyTorchとX64
ZIP (ファイルフォーマット)
ZIP(ジップ)は、データ圧縮やアーカイブのフォーマット。Windowsでよく使用されるフォーマットである。
機械学習
機械学習(きかいがくしゅう、)とは、経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で、人工知能の一種であるとみなされている。 典型的には「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなすものとされる。例えば過去のスパムメールを訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といったものである。
見る PyTorchと機械学習
機械翻訳
機械翻訳(きかいほんやく、)とは、ある自然言語を別の自然言語に翻訳する変換を、コンピュータを利用して自動的に行おうとするものである。
見る PyTorchと機械翻訳
機械語
機械語(きかいご、machine language、machine code 『日本大百科全書』【機械語】 (コトバンクにも転載されている)IT用語辞典 e-words【機械語】、 binary machine languageあるいはbinary machine code)は、コンピュータの中央処理装置(CPU)が直接理解し実行することができる命令からなる言語。マシン語(マシンご)とも。
見る PyTorchと機械語
正規表現
正規表現(せいきひょうげん、regular expression)は、文字列の集合を一つの文字列で表現する方法の一つである。とも呼ばれ、形式言語理論の分野では比較的こちらの訳語の方が使われる。まれにあるいはと呼ばれることもある。 もともと正規表現は形式言語理論において正規言語を表すための手段として導入された。形式言語理論では、形式言語が「正規言語であること」と「正規表現によって表せること」は同値である。 その後正規表現は単機能の文字列探索ツールやテキストエディタ、ワードプロセッサなどのアプリケーションで、マッチさせるべき対象を表すために使用されるようになり、表せるパターンの種類を増やすために本来の正規表現にはないさまざまな記法が新たに付け加えられた。このような拡張された正規表現には正規言語ではない文字列も表せるものも多く、ゆえに正規表現という名前は実態に即していない面もあるが、伝統的に正規表現と呼ばれ続けている。
見る PyTorchと正規表現
有向非巡回グラフ
有向非巡回グラフ、有向非循環グラフ、有向無閉路グラフ(ゆうこうひじゅんかいグラフ、Directed acyclic graph, DAG)とは、グラフ理論における閉路のない有向グラフのことである。有向グラフは頂点と有向辺(方向を示す矢印付きの辺)からなり、辺は頂点同士をつなぐが、ある頂点vから出発し、辺をたどり、頂点vに戻ってこないのが有向非巡回グラフである。 有向非巡回グラフは様々な情報をモデル化するのに使われる。有向非巡回グラフにおける到達可能性は半順序を構成し、全ての有限半順序は到達可能性を利用し有向非巡回グラフで表現可能である。順序づけする必要があるタスクの集合は、あるタスクが他のタスクよりも前に行う必要があるという制約により、頂点をタスク、辺を制約条件で表現すると有向非巡回グラフで表現できる。
拡散モデル
機械学習分野における拡散モデル(かくさんモデル、英:diffusion model)は潜在変数モデルの一種で、拡散確率モデル(かくさんかくりつモデル)とも呼ばれる。これは変分ベイズ法を用いて訓練されたマルコフ連鎖である。拡散モデルの目標とするところは、データの各点が潜在空間上で拡散していく振る舞いをモデル化することで、データ集合のもつ潜在構造を学習することにある。コンピュータビジョンの分野では、これはガウス雑音によってぼやけた画像から雑音を除去するために、拡散過程を反転させる学習を通じて訓練されたニューラルネットワークに相当する。コンピュータビジョンで用いられる一般的な拡散モデルの枠組みを表現する3つの例が、拡散モデルの雑音除去、ノイズ条件付きスコアネットワーク、そして確率微分方程式である。

