目次
大規模言語モデル
大規模言語モデル(だいきぼげんごモデル、、LLM)は、多数のパラメータ(数千万から数十億)を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習またはによって訓練が行われる。 LLMは2018年頃に登場し、さまざまなタスク(仕事)で優れた性能を発揮している。これにより、自然言語処理の研究の焦点は、特定のタスクに特化した教師ありモデルを訓練するという以前のパラダイムから転換した。大規模言語モデルの応用は目覚ましい成果を上げているが、大規模言語モデルの開発はまだ始まったばかりであり、多くの研究者が大規模言語モデルの改良に貢献している。
人工知能
人工知能(じんこうちのう、artificial intelligence)、AI(エーアイ)とは、「『計算()』という概念と『コンピュータ()』という道具を用いて『知能』を研究する計算機科学()の一分野」を指す語。「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピュータに行わせる技術」、または、「計算機(コンピュータ)による知的な情報処理システムの設計や実現に関する研究分野」ともされる。大学でAI教育研究は、情報工学科や情報理工学科コンピュータ科学専攻などの組織で行われている(工学〔エンジニアリング〕とは、数学・化学・物理学などの基礎科学を工業生産に応用する学問)。 『日本大百科全書(ニッポニカ)』の解説で、情報工学者・通信工学者の佐藤理史は次のように述べている。
見る AlexNetと人工知能
ジェフリー・ヒントン
ジェフリー・エヴァレスト・ヒントン(、1947年12月6日 - )は、イギリス生まれのコンピュータ科学および認知心理学の研究者。ニューラルネットワークの研究を行っており、人工知能(AI)研究の第一人者とみなされている。トロント大学名誉教授(2022年時点)。
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(たたみこみニューラルネットワーク、convolutional neural network、略称: CNNまたはConvNet)は、畳み込みを使用しているニューラルネットワークの総称である。画像認識や動画認識、音声言語翻訳、レコメンダシステム、自然言語処理、コンピュータ将棋、コンピュータ囲碁などに使用されている。
物体検出
80クラスの一般的な物体を検出できるCOCOデータセットで学習されたYOLOv3モデルを使用して、OpenCVのディープニューラルネットワークモジュール(DNN)で検出された物体。 物体検出(ぶったいけんしゅつ、object detection)は、デジタル画像処理やコンピュータビジョンに関連する技術の一つで、デジタル画像・動画内に映っている特定のクラス(人間、建物、車といったカテゴリー)の物体を検出するものである。物体検出はコンピュータビジョンの基礎的な学問領域であり、や顔認識、自動運転など多くの分野でその知見が応用されている。深層学習(ディープラーニング)技術の進展に伴い、物体検出の分野でもR-CNNやYOLO、SSDなどの深層学習を用いた手法が広く使われるようになって精度も大きく向上したが、一方で物体検出分野に特有の技術的な課題や学習・評価に必要なデータセット作成における課題など、解決されるべき課題も残っている。
見る AlexNetと物体検出
ImageNet
ImageNetは、物体認識ソフトウェアの研究で用いるために設計された大規模な画像データベースである。ImageNetでは、1400万を超える画像に手作業でアノテーションを行い、画像にどのような物体が写っているかを示している。また、100万枚以上の画像にも付与されている。ImageNetには、20,000を超えるカテゴリがあり、その中には「気球(balloon)」や「イチゴ(strawberry)」といった数百枚の画像で構成される一般的な物体カテゴリも含まれる。2010年から2017年まで、ImageNetプロジェクトは毎年、大規模な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである。チャレンジでは、重複しないように調整された1000個のカテゴリが利用される。論文により、今のImageNetの最高なレコードは「CoCa(finetune)」である。
LeNet
LeNet は、畳み込みニューラルネットワーク(Convolutional Nueral Network, CNN)の機構であり、1989 年にヤン・ルカン(Yann LeCun)らによって提案された。LeNet という語は、一般に、単純な畳み込みニューラルネットワークである LeNet-5 を指す。畳み込みニューラルネットワークはフィードフォワード・ニューラルネットワークの一種であり、人工ニューロンが周囲の細胞の一部をカバー範囲内として応答することができ、大規模な画像処理に適している。

