ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
無料
ブラウザよりも高速アクセス!
 

構文解析

索引 構文解析

構文解析(こうぶんかいせき、syntactic analysis あるいは parse)とは、文章、具体的にはマークアップなどの注記の入っていないベタの文字列を、自然言語であれば形態素に切分け、さらにその間の関連(修飾-被修飾など)といったような、統語論的(構文論的)な関係を図式化するなどして明確にする(解析する)手続きである。自然言語については自然言語処理における要点のひとつであり、プログラミング言語など形式言語の場合は、形式文法に従い構文木を得る。構文解析を行う機構を構文解析器(parser)と呼ぶ。.

73 関係: 句構造文法名詞句学校文法字句解析実装属性文法主辞駆動句構造文法形式言語形式文法形態素形態素解析依存文法チャートパーサメールアドレスボトムアップ構文解析トップダウン構文解析プログラミング言語パーサジェネレータヒューリスティクスツリーバンクデータ構造フリーソフトウェアニューラルネットワークアルゴリズムインターネットウェブページウェブブラウザオートマトンコンパイラコンテクストシャローパーサソースコード品詞再帰下降構文解析BisonC言語Colorless green ideas sleep furiouslyCYK法確率文脈自由文法美しき水車小屋の娘統計学統語論過剰適合解釈言語学語彙機能文法自然言語自然言語処理JavaLALR法...LL法NP完全問題Parsing Expression GrammarUniform Resource LocatorYacc抽象構文木格文法構文解析器構文木機械学習機械翻訳橋本文法正規表現演算子の優先順位最大エントロピー原理文字列文節文脈自由言語文脈自由文法文法日本語入力システム数学曖昧 インデックスを展開 (23 もっと) »

句構造文法

句構造文法(くこうぞうぶんぽう、、PSG)は、句構造規則で定義された文法を指す用語としてノーム・チョムスキーが考案したもので、エミール・ポストと Axel Thue が研究したかたちの書き換え規則の集まりである()。チョムスキー階層の文脈依存文法または文脈自由文法のみを指す用語として使うこともある。広義の句構造文法は「構成文法」(constituency grammar) とも呼ばれる。これは句構造文法が構成関係 (constituency relation) に着目したもので、依存関係 (dependency relation) に着目した依存文法と対比されるものだからである。.

新しい!!: 構文解析と句構造文法 · 続きを見る »

名詞句

名詞句(めいしく、英: noun phrase または nominal phrase、略: NP)は、名詞または代名詞を主要部とする句、あるいはそれと文法的に同じ機能を果たす句。 名詞句は、言語類型論において重要な要素である。 名詞句は、動詞の主語・目的語・述語として機能するほか、接置詞(前置詞・後置詞)の補部にも成り得る。名詞句は、他の名詞句あるいは前置詞句の中に含まれることもある。例えば、some of his constituents(彼の選挙人のうちの幾人か)という名詞句には、of his constituentsという前置詞句が含まれ、さらにその中にhis constituentsという名詞句が含まれている。 なお、限定詞(冠詞など)を伴う名詞句については、その名詞句の中に限定詞が含まれているという考え方と、逆にが名詞句を含んでいるという考え方がある。前者の立場では名詞が主要部、後者の立場では限定詞が主要部となる。.

新しい!!: 構文解析と名詞句 · 続きを見る »

学校文法

学校文法(がっこうぶんぽう)とは、現代日本の学校教育において、国語教育の際に準拠している文法のことである。教科(書)文法、文部省文法などとも呼ばれる。普通は現代日本語の文法を指す(本項で詳述する)が、古典(文語体)の文法も含む。教養教育(職業訓練でない学校教育)での外国語の文法についていうこともある。.

新しい!!: 構文解析と学校文法 · 続きを見る »

字句解析

字句解析 (じくかいせき、Lexical Analysis) とは、広義の構文解析の前半の処理で、自然言語の文やプログラミング言語のソースコードなどの文字列を解析して、後半の狭義の構文解析で最小単位(終端記号)となっている「トークン」(字句)の並びを得る手続きである。字句解析を行うプログラムは字句解析器である。自然言語の字句解析については形態素解析を参照。.

新しい!!: 構文解析と字句解析 · 続きを見る »

実装

実装(じっそう、implementation)とは、何らかの機能(や仕様)を実現するための(具体的な)装備や方法のこと。.

新しい!!: 構文解析と実装 · 続きを見る »

属性文法

属性文法(ぞくせいぶんぽう、Attribute Grammar)とは、形式文法の生成に関する属性を定義する形式的手法。属性には値を関連付けられる。その言語を構文解析やコンパイラで処理する際に、属性の評価(属性から値を得ること)が抽象構文木上のノードで行われる。 属性は2種類に分類される。合成(sythesized)属性と継承(inherited)属性である。合成属性とは、属性評価の結果として生成されるものであり、継承属性の値を使用することもある。継承属性とは、親ノードから継承される属性である。 いくつかの手法では、合成属性は意味情報を構文解析木の上に渡すのに使われ、継承属性は逆に下に渡すのに使われる。例えば、言語変換ツールを作成する場合、属性文法は構文要素に意味(値)を設定するのに使われる。また、文法(構文規則だけでは明示的に示されない言語の規則)に従って意味論的検証を行うことも可能である。 属性文法を応用している、最も広まっているツールはyacc(及びBisonなどの互換ツール)である。yaccはLALR(1)のパーサを構文規則群から生成できるパーサジェネレータだが、各規則に付けられる「セマンティックアクション」と呼ばれているコード片は、直接パーサのC言語のコード中に展開されて埋め込まれるというプリミティブな実現法ではあるが、子ノードの値を受け取って合成し(例えば、子ノードを葉とする枝のデータ構造を作り)、左辺の非終端記号の値として設定する、といったことができるという、属性を扱えるツールとなっている。一般には(具象)構文木を構築することが多いが、簡単な言語とターゲットであれば、ネイティブコードあるいは中間言語のコードをそこで生成することも不可能でもない。.

新しい!!: 構文解析と属性文法 · 続きを見る »

主辞駆動句構造文法

主辞駆動句構造文法(Head-driven phrase structure grammar, HPSG)は、Carl Pollard と Ivan Sag が開発した非派生的生成文法理論である(1985年)。一般化句構造文法の直接の後継である。HPSG はコンピュータ科学からも関心を寄せられ(データ型理論や知識表現)、フェルディナン・ド・ソシュールのシーニュ(記号)の記法を使う。形式主義的でモジュール性があることから、自然言語処理からも関心を寄せられている。 HPSGの文法には原則や構文規則だけでなく、従来は文法に含められることがなかった「語彙」も含められている。その形式主義は語彙主義に基づいている。すなわち、語彙は単なる単語のリストではなく、それ自体が十分構造化されている。個々のエントリには型がつけられる。それらの型は階層を形成する。 HPSGが扱う基本型はシーニュである。語と句は、シーニュの2つの異なる派生型である。語は2つの素性を持つ。(音、音声形式)と (統語的、意味論的情報)であり、共にさらに細かく分類される。シーニュと規則は型付き素性構造(feature structure)として形式化される。 HPSGに基づいた構文解析器がいくつも作られ、その最適化が最近の研究対象となっている。例えば、ドイツ語の文章を解析するシステムがブレーメン大学から提供されている。オランダ語向けには、フローニンゲン大学が開発した Alpino がある。 各種言語の大規模なHPSG文法が DELPH-IN 協力ネットワークによって開発されている。ドイツ語、英語、日本語に関するものがオープンソースのライセンスで利用可能となっている。.

新しい!!: 構文解析と主辞駆動句構造文法 · 続きを見る »

形式言語

形式言語(けいしきげんご、formal language)は、その文法(構文、統語論)が、場合によっては意味(意味論)も、形式的に与えられている(形式体系を参照)言語である。形式的でないために、しばしば曖昧さが曖昧なまま残されたり、話者集団という不特定多数によってうつろいゆくような自然言語のそれに対して、一部の人工言語や、いわゆる機械可読な(機械可読目録を参照)ドキュメント類などは形式言語である。この記事では形式的な統語論すなわち構文の形式的な定義と形式文法について述べる。形式的な意味論については形式意味論の記事を参照。.

新しい!!: 構文解析と形式言語 · 続きを見る »

形式文法

形式文法(けいしきぶんぽう、Formal Grammar)は、形式的に与えられた(形式体系を参照)文法である。「言語」をその言語における文の集合として与えるものとして、ここでは、(有限の)文字群上の有限長の文字列の(通常無限な)集合が、形式的に記述される。 形式文法にはふたつの捉えかたがある。それは「生成」と「分析」である。#チョムスキー階層の節および単独記事に詳細があるが、両者は対応するので、ある意味では同じものをそれぞれ逆の側から見たものにすぎない。 以下で「文法の規則(構文規則)の集まり」と呼んでいるのは、具体的には、句構造規則#基本モデルにあるようなものである。また終端記号と非終端記号の記事も参照のこと。.

新しい!!: 構文解析と形式文法 · 続きを見る »

形態素

形態素(けいたいそ、morpheme)とは、言語学の用語で、意味をもつ表現要素の最小単位。ある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの1つ1つを指す。形態素の一般的な性質や、形態素間の結びつきなどを明らかにする言語学の領域は、形態論と呼ばれる。.

新しい!!: 構文解析と形態素 · 続きを見る »

形態素解析

形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを用いた例で、「お待ちしております」という文を形態素解析した例である (「茶筌」を使用した)。 自然言語以外の場合では、プログラミング言語などの場合は字句解析が相当する。.

新しい!!: 構文解析と形態素解析 · 続きを見る »

依存文法

依存文法(いそんぶんぽう、dependency grammar)は、ルシアン・テニエール (en:Lucien Tesnière) によって開発された文法理論。(文脈依存文法とは直接は無関係である).

新しい!!: 構文解析と依存文法 · 続きを見る »

チャートパーサ

チャートパーサ(Chart parser)は、自然言語などの曖昧な文法に向いた構文解析器の一種である。動的計画法を用い、中間的かつ仮説的な結果をチャート(chart)と呼ばれるデータ構造に格納しておき、再利用する。これによりバックトラッキングを省き、同時に組合せ爆発を防ぐ。 チャートパーサは Martin Kay が開発した。.

新しい!!: 構文解析とチャートパーサ · 続きを見る »

メールアドレス

電子メールアドレス(でんしメールアドレス、英語:Electronic mail address)、Eメールアドレス(イーメールアドレス、英語:email address、e-mail address)は電子メールにおける送信先や発信元を表す。略称としてメールアドレス、アドレス、メルアド、メアドなどがある。漢字で言うと電子郵便住所である。.

新しい!!: 構文解析とメールアドレス · 続きを見る »

ボトムアップ構文解析

ボトムアップ構文解析(ボトムアップこうぶんかいせき、Bottom-up parsing)は、構文解析において、構文木を、木の葉に相当する終端記号の列から始めて、それを順次左辺の非終端記号へ書き換え、最終的に最上位の非終端記号(たとえば「文」)を得る、というような手順によって導出する構文解析の戦略である。逆はトップダウン構文解析。.

新しい!!: 構文解析とボトムアップ構文解析 · 続きを見る »

トップダウン構文解析

トップダウン構文解析(トップダウンこうぶんかいせき、Top-down parsing)は、構文解析において、構文木を、最上位の非終端記号から始めて、それを順次右辺の記号列へと書き換えていくような手順によって導出する構文解析の戦略である。逆はボトムアップ構文解析。.

新しい!!: 構文解析とトップダウン構文解析 · 続きを見る »

プログラミング言語

プログラミング言語(プログラミングげんご、programming language)とは、コンピュータプログラムを記述するための形式言語である。なお、コンピュータ以外にもプログラマブルなものがあることを考慮するならば、この記事で扱っている内容については、「コンピュータプログラミング言語」(computer programming language)に限定されている。.

新しい!!: 構文解析とプログラミング言語 · 続きを見る »

パーサジェネレータ

パーサジェネレータ(parser generator)は、構文解析器を作成するプログラムである。.

新しい!!: 構文解析とパーサジェネレータ · 続きを見る »

ヒューリスティクス

ヒューリスティック(heuristic, Heuristik)とは、必ず正しい答えを導けるわけではないが、ある程度のレベルで正解に近い解を得ることができる方法である。ヒューリスティックスでは、答えの精度が保証されない代わりに、回答に至るまでの時間が少ないという特徴がある。主に計算機科学と心理学の分野で使用される言葉であり、どちらの分野での用法も根本的な意味は同じであるが、指示対象が異なる。すなわち、計算機科学ではプログラミングの方法を指すが、心理学では人間の思考方法を指すものとして使われる。なお、論理学では仮説形成法と呼ばれている。.

新しい!!: 構文解析とヒューリスティクス · 続きを見る »

ツリーバンク

ツリーバンク(Treebank)は、コーパスの一種であり、各文に統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。.

新しい!!: 構文解析とツリーバンク · 続きを見る »

データ構造

データ構造(データこうぞう、data structure)は、計算機科学において、データの集まりをコンピュータの中で効果的に扱うため、一定の形式に系統立てて格納するときの形式のことである。 ソフトウェア開発において、データ構造についてどのような設計を行うかは、プログラム(アルゴリズム)の効率に大きく影響する。そのため、さまざまなデータ構造が考え出されている。 多くのプログラムの設計において、データ構造の選択は主要な問題である。これは大規模システムの構築において、実装の困難さや質、最終的なパフォーマンスはベストのデータ構造を選択したかどうかに大きく依存してきたという経験の結果である。多くの場合、データ構造が決まれば、利用するアルゴリズムは比較的自明に決まる。しかし場合によっては、順番が逆になる。つまり、与えられた仕事をこなす最適なアルゴリズムを使うために、そのアルゴリズムが前提としている特定のデータ構造が選択される。いずれにしても適切なデータ構造の選択は極めて重要である。 この洞察は、多くの定式化された設計手法やプログラミング言語において、データ構造がアルゴリズムよりもキーとなる構成要素となっていることに現れている。大半の言語は異なるアプリケーションにおいてデータ構造を安全に再利用できるよう、実装の詳細をインターフェイスの背後に隠蔽するような、モジュール化のしくみを備えている。C++やJavaといったオブジェクト指向プログラミング言語はクラスをこの目的に用いている。 データ構造は専門的なプログラミングにとって非常に重要なので、C++におけるSTLや、Java API、および.NET Frameworkのようなプログラミング言語の標準ライブラリや環境において多くのデータ構造がサポートされている。 データ構造が実装を表すのかインターフェースを表すのかについてはいくらか議論がある。どのように見えるかは相対的な問題なのかもしれない。データ構造は2つの関数の間にあるインターフェイスとして見ることもできるし、データ型に基づいて構成されたストレージにアクセスする方法を実装したものとして見ることもできる。.

新しい!!: 構文解析とデータ構造 · 続きを見る »

フリーソフトウェア

フリーソフトウェア (free software) とは、ソフトウェアのうち、フリーソフトウェア財団が提唱する自由ソフトウェアを指す。大半のフリーソフトウェアは無償(フリー)で配布されているが、定義に従えば、ここでいうフリーソフトウェアについて一次配布が無償である必要は必ずしもない。 フリーソフトウェア財団はフリーソフトウェアの定義を提示している。ソフトウェアライセンスについてはフリーソフトウェアライセンスを参照。 定義に照らして自由ではない、すなわち改造や再配布などに制限が掛かっていたり、ソースコードが開示されていない、無償で利用できるソフトウェアとは異なる概念であり、この場合はフリーウェアもしくは無料ソフトと呼ぶことが望ましいとフリーソフトウェア財団はしている。 逆に定義に従ったソフトウェアであれば、一次的な配布が有償であってもフリーソフトウェアと呼ぶことができる。ただし、前述したように配布が自由であるため、ほとんどのフリーソフトウェアは無償で配布されている。 また、現状強い影響力を持つ定義として、フリーソフトウェア財団の定義の他に、DebianフリーソフトウェアガイドラインとそれをベースにしたOpen Source Initiativeのオープンソースの定義がある。.

新しい!!: 構文解析とフリーソフトウェア · 続きを見る »

ニューラルネットワーク

ニューラルネットワーク(神経回路網、neural network、略称: NN)は、脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデルである。研究の源流は生体の脳のモデル化であるが、神経科学の知見の改定などにより次第に脳モデルとは乖離が著しくなり、生物学や神経科学との区別のため、人工ニューラルネットワーク(artificial neural network、ANN)とも呼ばれる。.

新しい!!: 構文解析とニューラルネットワーク · 続きを見る »

アルゴリズム

フローチャートはアルゴリズムの視覚的表現としてよく使われる。これはランプがつかない時のフローチャート。 アルゴリズム(algorithm )とは、数学、コンピューティング、言語学、あるいは関連する分野において、問題を解くための手順を定式化した形で表現したものを言う。算法と訳されることもある。 「問題」はその「解」を持っているが、アルゴリズムは正しくその解を得るための具体的手順および根拠を与える。さらに多くの場合において効率性が重要となる。 コンピュータにアルゴリズムをソフトウェア的に実装するものがコンピュータプログラムである。人間より速く大量に計算ができるのがコンピュータの強みであるが、その計算が正しく効率的であるためには、正しく効率的なアルゴリズムに基づいたものでなければならない。.

新しい!!: 構文解析とアルゴリズム · 続きを見る »

インターネット

インターネット(internet)は、インターネット・プロトコル・スイートを使用し、複数のコンピュータネットワークを相互接続した、グローバルな情報通信網のことである。 インターネットは、光ファイバーや無線を含む幅広い通信技術により結合された、地域からグローバルまでの範囲を持つ、個人・公共・教育機関・商用・政府などの各ネットワークから構成された「ネットワークのネットワーク」であり、ウェブのハイパーテキスト文書やアプリケーション、電子メール、音声通信、ファイル共有のピア・トゥ・ピアなどを含む、広範な情報とサービスの基盤となっている。.

新しい!!: 構文解析とインターネット · 続きを見る »

ウェブページ

ウェブページ (Web page, webpage) は、ウェブ上にあり、ウェブブラウザで閲覧可能な、ページ単位の文書のこと。ホームページと表記することもあるが、誤用であるという主張もある(詳しくはホームページの項を参照)。.

新しい!!: 構文解析とウェブページ · 続きを見る »

ウェブブラウザ

情報なし ウィキメディア財団のサーバにアクセスしたウェブブラウザの割合(2012年12月) ウェブブラウザ(インターネットブラウザ、web browser)とは、 World Wide Web (WWW) の利用に供するブラウザであり、ユーザエージェント (UA) である。具体的には、ウェブページを画面や印刷機に出力したり、ハイパーリンクをたどったりするなどの機能がある。単にブラウザ(ブラウザー)と呼んだ場合、多くはウェブブラウザのことを指す。 WWW 上の情報リソースを扱うアプリケーションであり、ウェブページ・画像・動画・音声等の情報リソースの識別には Uniform Resource Identifier (URI) を使用する。 ウェブブラウザは WWW への接続を第一の目的としているが、プライベートネットワーク内の Web サーバやファイルシステム内のファイルが提供する情報への接続にも利用できる。主なウェブブラウザとして、Internet Explorer, Microsoft Edge, Mozilla Firefox, Google Chrome, Opera, Safari 等がある。.

新しい!!: 構文解析とウェブブラウザ · 続きを見る »

オートマトン

ートマトン (単数形: automaton, 複数形: オートマタ(automata )) とは、自動人形などとも呼ばれる「オートマタ」と同じ語であるが、計算理論において、計算モデルに関して有限オートマトンなどの総称として使われる。また特に「オートマトン理論」と呼ばれる分野では、計算機械のうち計算可能性の点でチューリングマシンよりも制限されているものを特に指して言うこともある。.

新しい!!: 構文解析とオートマトン · 続きを見る »

コンパイラ

ンパイラ(英:compiler)とは、コンピュータ・プログラミング言語の処理系(言語処理系)の一種で、高水準言語によるソースコードから、機械語に(あるいは、元のプログラムよりも低い水準のコードに)変換するプログラムである。.

新しい!!: 構文解析とコンパイラ · 続きを見る »

コンテクスト

ンテクスト(Context)あるいはコンテキストとは、文脈や背景となる分野によってさまざまな用例がある言葉であるが、一般的に文脈(ぶんみゃく)と訳されることが多い。文脈により「脈絡」、「状況」、「前後関係」、「背景」などとも訳される。.

新しい!!: 構文解析とコンテクスト · 続きを見る »

シャローパーサ

ャローパーサ(英: Shallow parser)とは、文の構成要素(名詞句、動詞など)を特定する構文解析の一種である。ただし、文の内部構造は特定せず、文における各構成要素の役割も特定しない(つまり、主語、述語、目的語といった判別をしない)。チャンキング(chunking)とも呼ばれる。 自然言語処理でよく使われる技法である。コンピュータ言語の字句解析に近く、日本語においては形態素解析に近い。.

新しい!!: 構文解析とシャローパーサ · 続きを見る »

ソースコード

青で示されているのが有効なコードである。 ソースコード(source code)とは、コンピュータプログラミング言語で書かれた、コンピュータプログラムである文字列(テキストないしテキストファイル)のことである。.

新しい!!: 構文解析とソースコード · 続きを見る »

品詞

品詞(ひんし、parts of speech)は、単語を文法的な機能や形態などによって分類したもの。.

新しい!!: 構文解析と品詞 · 続きを見る »

再帰下降構文解析

再帰下降構文解析(さいきかこうこうぶんかいせき、Recursive Descent Parsing)は、相互再帰型の手続き(あるいは再帰的でない同等の手続き)で構成されるLL法のトップダウン構文解析であり、各プロシージャが文法の各生成規則を実装することが多い。従って、生成されるプログラムの構造はほぼ正確にその文法を反映したものとなる。そのような実装の構文解析器を再帰下降パーサ(Recursive Descent Parser)と呼ぶ。.

新しい!!: 構文解析と再帰下降構文解析 · 続きを見る »

Bison

Bison(バイソン)とは構文解析器を生成するパーサジェネレータの一種であり、CコンパイラとしてのGCCのサポートのために開発されたフリーソフトウェアである。.

新しい!!: 構文解析とBison · 続きを見る »

C言語

C言語(シーげんご)は、1972年にAT&Tベル研究所のデニス・リッチーが主体となって開発したプログラミング言語である。英語圏では単に C と呼んでおり、日本でも文書や文脈によっては同様に C と呼ぶことがある。.

新しい!!: 構文解析とC言語 · 続きを見る »

Colorless green ideas sleep furiously

"Colorless green ideas sleep furiously"(直訳: 無色の緑色の考えが猛烈に眠る)とは、ノーム・チョムスキーによる文である。1957年に『文法の構造』の中で、言語学から、文法的(統語論的)には正しいにもかかわらず、意味論的にはnonsenseである(:en:nonsense、意味をなさない)文の例として考案された。初出は1955年の論文『言語理論の論理構造』(Logical Structures of Linguistic Theory)である。この文は文法的には正しいが、理解しうる明瞭な意味を導き出すことができない。従ってこの文は統語論と意味論との境界を明示している。カテゴリー錯誤の一例として、当時有力だった文法の確率モデルの不備を指摘し、より体系的なモデルの必要性を示すために使われた。.

新しい!!: 構文解析とColorless green ideas sleep furiously · 続きを見る »

CYK法

CYK法(CYK algorithm)は、ある文字列が与えられた文脈自由文法で生成できるかを決め、生成できる場合の生成方法を求めるアルゴリズムである。CYK は Cocke-Younger-Kasami の略(それぞれ、RISCの先駆と言われる801などでも知られるジョン・コック、Daniel Younger、嵩忠雄である)。文脈自由文法の構文解析手法と捉えることもできる。このアルゴリズムは一種の動的計画法である。 標準的なCYK法は、チョムスキー標準形で書かれた文脈自由文法で定義される言語を認識する。任意の文脈自由文法をチョムスキー標準形に書き換えるのはそれほど困難ではないので、CYK法は任意の文脈自由文法の認識に使うことができる。CYK法を拡張してチョムスキー標準形で書かれていない文脈自由文法を扱うようにすることも可能である。これにより性能は向上するが、アルゴリズムを理解することは難しくなる。 CYK法の最悪時間計算量は Θ(n3) であり、n は解析対象の文字列の長さである。従って、CYK法は任意の文脈自由言語を認識できる最も効率的なアルゴリズムの1つである。ただし、文脈自由言語の特定のサブセットについて、より効率の良いアルゴリズムが他に存在する。.

新しい!!: 構文解析とCYK法 · 続きを見る »

確率文脈自由文法

率文脈自由文法(Stochastic context-free grammar, SCFG, Probabilistic context-free grammar, PCFG)は、各生成規則に確率が対応している文脈自由文法である。導出(構文解析)の確率は、その導出で使われた生成規則群の確率の積で表される。従って、導出結果は他の文法よりも確率文法により近い。SCFGの文脈自由文法への拡張は、隠れマルコフモデルの正規文法への拡張と似ている。SCFGは主に自然言語処理とバイオインフォマティクスにおけるRNA分子の研究で利用されている。SCFGは加重文脈自由文法の特殊な形態と言うことができる。.

新しい!!: 構文解析と確率文脈自由文法 · 続きを見る »

美しき水車小屋の娘

歌曲集『美しき水車小屋の娘』(うつくしきすいしゃごやのむすめ、Die schöne Müllerin)作品25、D795はフランツ・シューベルトが作曲した全20曲からなる歌曲集。一般に「冬の旅」・「白鳥の歌」と並び「シューベルト3大歌曲集」の一つと称される。 一部では「美しき水車屋の娘」と呼ばれることもある。.

新しい!!: 構文解析と美しき水車小屋の娘 · 続きを見る »

統計学

統計学(とうけいがく、statistics、Statistik)とは、統計に関する研究を行う学問である。 統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている。 現在では、医学(疫学、EBM)、薬学、経済学、社会学、心理学、言語学など、自然科学・社会科学・人文科学の実証分析を伴う分野について、必須の学問となっている。また、統計学は哲学の一分科である科学哲学においても重要な一つのトピックになっている。.

新しい!!: 構文解析と統計学 · 続きを見る »

統語論

統語論(とうごろん、syntax)とは、ヒト・人間の言語において文が構成される仕組み、またはそれを扱う言語学の一分野である。統辞論(とうじろん)、構文論(こうぶんろん)ともいう。 統語論は文法[音韻論(音の仕組み)、形態論(語が構成される仕組み)などを含む、言語の構造を成り立たせている諸原理] の一部である。ただし、特に統語論のことを指して「文法」ということもある。.

新しい!!: 構文解析と統語論 · 続きを見る »

過剰適合

ノイズのある、ほぼ線形なデータは、一次関数にも多項式関数にも適合する。多項式関数は各データポイントを通過し、一次関数は必ずしもデータポイントを通過しないが、端の方で大きな変化が生じることがないため、一次関数の方がよりよい適合であると言える。回帰曲線を使ってデータを外挿した場合、過剰適合であれば悪い結果となる。 教師あり学習(ニューラルネットワークなど)における過剰適合。訓練時のエラーを青、評価時のエラーを赤で示している。訓練時のエラーが減少しているのに、評価時のエラーが増えている場合、過剰適合が起きている可能性がある。 過剰適合(かじょうてきごう、英: Overfitting)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。.

新しい!!: 構文解析と過剰適合 · 続きを見る »

解釈

解釈(かいしゃく、ἑρμηνεία (hermeneia)、interpretatio、Auslegung、Interpretation)は、主として以下のような意味で用いられる。.

新しい!!: 構文解析と解釈 · 続きを見る »

言語学

言語学(げんごがく)は、ヒトが使用する言語の構造や意味を科学的に研究する学問である。.

新しい!!: 構文解析と言語学 · 続きを見る »

語彙機能文法

語彙機能文法(Lexical functional grammar, LFG)は、言語学の理論的フレームワークの1つであり、生成文法の一種である。1970年代に Joan Bresnan と Ronald Kaplan によって創始された。統語論を中心とし、形態論や意味論との関係も扱う。音韻論に関しては、あまり研究が進んでいない(ただし、LFG の研究では最適性理論の考え方が一般化している)。 LFG では、言語を多次元の構造からなるものとして見る。各次元は、固有の規則・概念・形式をもつ独立した構造で表される。LFG 研究において第一に定式化された構造としては、以下のものがある。.

新しい!!: 構文解析と語彙機能文法 · 続きを見る »

自然言語

自然言語(しぜんげんご、natural language)とは、人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた言語である。分類として、音声言語と文字言語、口頭言語と書記言語、口語と文語といったような分類があるが、いずれも似ているようだが着目点や対比軸が異なる分類であり、混同してはならない。また、以上のような分類がいずれも当たらない言語もあり、例えば日本手話(「日本語対応手話」とは異なる)がそうである。.

新しい!!: 構文解析と自然言語 · 続きを見る »

自然言語処理

自然言語処理(しぜんげんごしょり、natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」()との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。 自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。.

新しい!!: 構文解析と自然言語処理 · 続きを見る »

Java

Java(ジャバ)は、狭義ではプログラミング言語Javaを指す。広義では言語仕様以外にも、仕様が与えられているJavaクラスライブラリやJava仮想マシン、さらにはJDKやJREなどの公式のものをはじめとする、場合によってはサードパーティのものなどを含め曖昧にJavaプラットフォームと総称されるようなものなどのエコシステムなどを指すこともある。構文についてはJavaの文法の記事を参照。.

新しい!!: 構文解析とJava · 続きを見る »

LALR法

LALR法(LALR parser)は、構文解析手法の一種であり、Lookahead(先読み)LR法の略である。単純LR法(SLR法)の構文解析器よりも多くの文脈自由文法を扱うことができる。構文解析表の大きさがあまり大きくなく、多くの文法を扱えることから、最も一般的な構文解析器となっている。yacc や GNU bison といったパーサジェネレータの多くもこの種の構文解析器を生成する。 SLR法と同様、LALR法では LR(0) の構文解析表を必要とする。SLR 法では Follow-set を使って reduce アクションを構築するのに対して、LALR法では Lookahead-set を使う。Lookahead-set は構文解析により特化している。Follow-set は関連する記号の集合だが、Lookahead-set はLR(0)アイテムと構文解析状態に特化した集合である。 ある LR(0) 文法での状態 S におけるアイテム I の Follow-set は、文法上 I の左辺の非終端記号の後に出現可能な全記号を含む。一方、状態 S におけるアイテム I の Lookahead-set は、状態 S で構文解析を開始したときの I の右辺に出現可能な記号のみを含む。follow(I) は左辺が同じ I である全 LR(0)アイテムの Lookahead-set の和集合と等価であり、状態やアイテムの右辺は考慮されていない。従って、Follow-set からは文脈情報が失われている。Lookahead-set は特定の構文解析向けであるため、さらに選別が可能で、Follow-set よりも詳細な識別が可能となる。.

新しい!!: 構文解析とLALR法 · 続きを見る »

LL法

LL法またはLL構文解析とは、文脈自由文法のサブセットのためのトップダウン構文解析法の一種である。入力文字列を左 (Left) から構文解析していき、左端導出 (Leftmost Derivation) を行う(このため、LL法と呼ぶ。LR法も参照されたい)。この方式で構文解析可能な文法のクラスを LL文法 と呼ぶ。 以下では、表駆動型の構文解析を解説する。他の手法として、個々の構文規則に対応するサブルーチンの呼び出しから成る再帰下降構文解析もある。表駆動型は計算機による生成に向き、再帰下降構文解析はコードの手書きに向いている(しかし、再帰下降構文解析のコードを自動生成する ANTLR のようなツールもある)。 k 個の字句(トークン)を先読みする場合、LL(k) と表記する。ある文法について LL(k) 構文解析器が存在し、バックトラッキングなしで構文解析できる場合、その文法を LL(k) 文法であるという。LL(1) 文法は機能が限定されるが、次のトークンだけを先読みすればよいため、構文解析器の生成が容易であり、よく使われている。一般に設計に問題がある言語は大きな k が必要となる傾向があり(k が大きいということは、人がプログラムを読む場合にも、たくさん読まないと意味を把握できないということである)、構文解析が大変になる。.

新しい!!: 構文解析とLL法 · 続きを見る »

NP完全問題

NP完全(な)問題(エヌピーかんぜん(な)もんだい、NP-complete problem)とは、(1) クラスNP(Non-deterministic Polynomial)に属する決定問題(言語)で、かつ (2) 任意のクラスNPに属する問題から多項式時間還元(帰着)可能なもののことである。条件 (2) を満たす場合は、問題の定義が条件 (1) を満たさない場合にも、NP困難な問題とよびその計算量的な困難性を特徴づけている。多項式時間還元の推移性から、クラスNPに属する問題で、ある一つのNP完全問題から多項式時間還元可能なものも、またNP完全である。現在発見されているNP完全問題の証明の多くはこの推移性によって充足可能性問題などから導かれている。充足可能性問題がNP完全であることは1971年、スティーブン・クック(Stephen Cook (1971).

新しい!!: 構文解析とNP完全問題 · 続きを見る »

Parsing Expression Grammar

Parsing Expression Grammar (PEG, Parsing Expression Grammar) は、分析的形式文法の一種であり、形式言語をその言語に含まれる文字列を認識するための一連の規則を使って表したものである。PEGは再帰下降構文解析を文法を示すためだけに純粋に図式的に表現したものと見ることもでき、具体的な構文解析器の実装やその用途とは独立している。 PEGにおける構文(文法)の定義は文脈自由文法のバッカス・ナウア記法によるそれに似ているが、文脈自由文法では一般に「|」(縦棒、バーティカルバー)で表される「これらのうちどれか」ではなく、「最初の解析がうまくいったらそれを、失敗なら次を順に試してゆき、成功したものを採用」(「/」であらわす)という意味を使う。 このため、文脈自由文法とは異なり、PEGには曖昧さは存在しない。文字列を構文解析する場合、正しい構文木は常に1つしかない。このためPEGはコンピュータ言語の構文解析に向いており、一方、自然言語の多義性を、そのまま複数の構文木が可能である、という形で形式化するのには向かない。.

新しい!!: 構文解析とParsing Expression Grammar · 続きを見る »

Uniform Resource Locator

Uniform Resource Locator(ユニフォーム リソース ロケータ、URL)または、統一資源位置指定子(とういつしげんいちしていし)とは、インターネット上のリソース(資源)を特定するための形式的な記号の並び。WWWをはじめとするインターネットアプリケーションにおいて提供されるリソースを、主にその所在を表記することで特定する。なお、ここでいう、「リソース」とは、(主にインターネット上の)データやサービスを指し、例えばウェブページの保存場所や電子メールの宛先といったものがそうである。 ティム・バーナーズ=リーが1991年に発表した論文でUniversal Resource Locatorと命名し、初期はその名が使われたが、現在の正式名称は、「Uniform Resource Locator」である。 URLを含む一般概念としてURIがある。 URLはリソースの場所を特定する「住所」のようなものだと例えられることがある。また、日本ではURLのことを「アドレス」と呼ぶことがあるが、これは、MACアドレスやIPアドレスなどと紛らわしく、技術用語としては、好まれてはいない。.

新しい!!: 構文解析とUniform Resource Locator · 続きを見る »

Yacc

Yacc(yet another compiler compiler、ヤック)はパーサジェネレータの一つである。1970年代にAT&TでUNIX用にスティーヴン・カーティス・ジョンソンが開発した。.

新しい!!: 構文解析とYacc · 続きを見る »

抽象構文木

抽象構文木(abstract syntax tree、AST)とは、通常の構文木(具象構文木あるいは解析木とも言う)から、言語の意味に関係ない情報を取り除き、意味に関係ある情報のみを取り出した(抽象した)木構造のデータ構造である。 理論的には、有限なラベル付き有向木であり、分岐点に演算子、葉にそのオペランドを対応させたものである。つまり、葉は変数や定数に対応する。 抽象構文木は構文解析で構文木とデータ構造の中間的なものとして使用される。さらにコンパイラやインタプリタなど(プログラミング言語処理系)でのプログラムの中間表現として使われ、コンパイラ最適化やコード生成はその上で行われる。抽象構文木のとりうる構造は抽象構文で記述されている。 抽象構文木は(具象)構文木とは異なり、プログラムの意味に関係ない部分を省略する。そのような省略の例としては括弧の省略があげられる。抽象構文木では、オペランドのグループ化が自明な木構造とするのが普通であり、グループ化のための括弧などは意味的に不要である。 大多数のプログラミング言語のような文脈自由言語の構文解析で抽象構文木を作るのは簡単である。構文規則ごとに新たな節点を作成し、葉はその規則における記号に対応する。グループ化規則のような抽象構文木に関わらない規則は無視される。そのようにいきなり抽象構文木を生成することもあるし、完全な具象構文木を作り、その後そこから冗長な部分(プログラムの意味に関係しない部分)を除いて抽象構文木に変換することもある。 理論的な観点からは、たとえばソースコード上の位置(何行目の何カラム目など)といった具象の情報は言語処理系には不要であり、抽象構文木には無くてもよいのだが、実践的には、エラーを見つけた時にプログラマに親切なエラーメッセージを出力するためなど、重要な情報であり、時には処理系のフロントエンドではなくバックエンドでも必要なこともある。.

新しい!!: 構文解析と抽象構文木 · 続きを見る »

格文法

格文法(かくぶんぽう case grammar)とは、1968年に言語学者チャールズ・フィルモアによって提唱された文法理論である。.

新しい!!: 構文解析と格文法 · 続きを見る »

構文解析器

構文解析器(こうぶんかいせきき)とは、構文解析をおこなうプログラム。パーサ (parser)とも。プログラミング言語処理系の入力部分が代表的であるが、それに限らず設定ファイルの読み込みなど、構造を持った入力テキストの処理を行う。自然言語処理でも使われる。 構文解析のアルゴリズムには複雑なものも多いが、パーサジェネレータの研究は盛んであり、そういったものを使用zすれば、構文規則を記述するだけで構文解析器を自動的に生成できる(プログラムのソースコードが出力される)。.

新しい!!: 構文解析と構文解析器 · 続きを見る »

構文木

構文木(こうぶんぎ)とは、構文解析の経過や結果(またはそれら両方)を木構造で表したもの。.

新しい!!: 構文解析と構文木 · 続きを見る »

機械学習

機械学習(きかいがくしゅう、machine learning)とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。.

新しい!!: 構文解析と機械学習 · 続きを見る »

機械翻訳

機械翻訳(きかいほんやく、)とは、ある自然言語を別の自然言語に翻訳する変換を、コンピュータを利用して全て(ないし、可能な限り全て)自動的に行おうとするものである。 近年のコンピュータの速度と容量の拡大にもとづく「力業による解決」が進んだことなどにより、急速に成長している分野である。.

新しい!!: 構文解析と機械翻訳 · 続きを見る »

橋本文法

橋本文法(はしもとぶんぽう)は、橋本進吉による日本語の文法であり、日本語文法のいわゆる四大文法(山田文法・松下文法・橋本文法・時枝文法)のひとつ。学校文法のベースとして、戦後国語教育への影響が大きい。.

新しい!!: 構文解析と橋本文法 · 続きを見る »

正規表現

正規表現(せいきひょうげん、regular expression)とは、文字列の集合を一つの文字列で表現する方法の一つである。正則表現(せいそくひょうげん)とも呼ばれ、形式言語理論の分野では比較的こちらの訳語の方が使われる。まれに正規式と呼ばれることもある。 もともと正規表現は形式言語理論において正規言語を表すための手段として導入された。形式言語理論では、形式言語が正規言語であることと正規表現によって表せることは同値である。 その後正規表現はテキストエディタ、ワードプロセッサなどのアプリケーションで(ないし、そもそもそれ以前に単機能の文字列探索ツールの)、マッチさせるべき対象を表すために使用されるようになり、表せるパターンの種類を増やすために本来の正規表現にはないさまざまな記法が新たに付け加えられた。このような拡張された正規表現には正規言語ではない文字列も表せるものも多く、ゆえに正規表現という名前は実態に即していない面もあるが、伝統的に正規表現と呼ばれ続けている。 この記事では主にこのような正規表現を用いたパターンマッチングについて説明している。以下、誤解のない限り、アプリケーションやプログラミングにおいて正規表現を用いた文字列のパターンマッチングを行う機能のことを、単に正規表現という。 ほとんどのプログラミング言語では、ライブラリによって正規表現を使うことができる他、一部の言語では正規表現のリテラルもある。「正規表現によるマッチ」を意味する(専用の)演算子がある言語なども一部ある。具体例として、grep、AWK、sed、Perl、Tcl、lexなどがある。 それぞれの言語やアプリケーションで細部の仕様が異なっている、といったように思われることも多いが(また、古い実装では実際にそういうことも多いが)、近年は同じライブラリを使っていれば同じということも多い。またPOSIXなど標準もある。.

新しい!!: 構文解析と正規表現 · 続きを見る »

演算子の優先順位

演算子の優先順位とは、数学およびコンピュータプログラミングにおいて、数式のどの部分から先に計算すべきかを明確化する規則である。 例えば、数学や多くのコンピュータ言語では乗法は加法より先に行われる。2 + 3 × 4 という式の計算結果は14になる。(と)、、 といった括弧には計算順序の混乱を防ぐ独自の規則が適用され、例えば先の式は 2 + (3 × 4) とも書けるが、括弧がなくとも乗法が優先されるという規則だけで式の値は一意に定まる。 代数学的記法が導入された際、乗法が加法より優先されるようになった。したがって、3 + 4 × 5.

新しい!!: 構文解析と演算子の優先順位 · 続きを見る »

最大エントロピー原理

最大エントロピー原理(さいだいエントロピーげんり、Principle of maximum entropy)は、認識確率分布を一意に定めるために利用可能な情報を分析する手法である。この原理を最初に提唱したのは E.T. Jaynes である。彼は1957年に統計力学のギブズ分布を持ち込んだ熱力学()を提唱した際に、この原理も提唱したものである。彼は、熱力学やエントロピーは、情報理論や推定の汎用ツールの応用例と見るべきだと示唆した。他のベイズ的手法と同様、最大エントロピー原理でも事前確率を明示的に利用する。これは古典的統計学における推定手法の代替である。.

新しい!!: 構文解析と最大エントロピー原理 · 続きを見る »

文字列

文字列(もじれつ)は、単語や文章のような、文字の連なったもの。ストリング (string)、テキスト (text) という場合もある。コンピュータ、特にプログラミングの分野で用いることが多い。.

新しい!!: 構文解析と文字列 · 続きを見る »

文節

文節(ぶんせつ)とは、日本語の文法(文語体ならびに現代日本語文法)において、言葉を細かく区切った際に不自然にならない最小の単位(単語とは異なる)。また音声言語的にも句切ることなくひとつらねで発音される単位である。言語学と用語に少しズレがあり、言語学で言う「語」に近い。.

新しい!!: 構文解析と文節 · 続きを見る »

文脈自由言語

文脈自由言語(ぶんみゃくじゆうげんご)とは、次のような再帰的な生成規則をもつ文脈自由文法によって、与えられた言語の長さ n に対して O(n3) の時間で認識される形式言語。プッシュダウン・オートマトンで受理可能な言語と等価である。.

新しい!!: 構文解析と文脈自由言語 · 続きを見る »

文脈自由文法

文脈自由文法(ぶんみゃくじゆうぶんぽう、Context-free Grammar、CFG)は、形式言語の理論(特に、生成文法)において全生成規則が以下のようである形式文法である。 ここで V は非終端記号であり、w は終端記号と非終端記号の(0個を含む)任意個の並びである。「文脈自由」という用語は前後関係に依存せずに非終端記号 V を w に置換できる、という所から来ている(「文脈無用」という訳の提案もある)。文脈自由文法によって生成される形式言語を文脈自由言語という。.

新しい!!: 構文解析と文脈自由文法 · 続きを見る »

文法

文法(ぶんぽう、grammar)とは、言語の体系、およびそのモデル、およびそれをもとにした、ある個別言語の話し手が従うべき規範である。この記事ではもっぱら自然言語の文法について扱う。形式言語の文法については形式文法の記事を参照のこと。なお、「文法論(grammar)」という語が指すものと「統語論(syntax、分野等によっては構文論とも)」という語が指すものが同一のものであるとして扱われている場合もあるが、ここでは別とする。.

新しい!!: 構文解析と文法 · 続きを見る »

日本語入力システム

日本語入力システムはインプットメソッドのうち、特にパソコンやワープロ、携帯電話などに日本語を入力するためのものを指す。キー入力をソフトウェアで制御して実現するものが一般的であるが、ポインティングデバイスを利用して手書き入力した漢字混じりの文を変換するものも存在する。特にキーボードでかなを入力した後に漢字交じり文へ変換するものをかな漢字変換と呼ぶ。.

新しい!!: 構文解析と日本語入力システム · 続きを見る »

数学

数学(すうがく、μαθηματικά, mathematica, math)は、量(数)、構造、空間、変化について研究する学問である。数学の範囲と定義については、数学者や哲学者の間で様々な見解がある。.

新しい!!: 構文解析と数学 · 続きを見る »

曖昧

曖昧(あいまい)とは、1つの表現や文字列、項目などが2つ以上の意味にとれること、もしくは、周辺が不明瞭なことである。.

新しい!!: 構文解析と曖昧 · 続きを見る »

ここにリダイレクトされます:

統語解析

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »