ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
無料
ブラウザよりも高速アクセス!
 

文書検索

索引 文書検索

文書検索(ぶんしょけんさく、Document retrieval)は、自由な書式の文書群に対するユーザーの何らかのクエリについて照合を行うこと。文書はどんな形式でもよいが、主に自然言語で書かれたもので、ニュース記事、不動産情報、マニュアルなど様々なものが考えられる。ユーザーのクエリは、必要な情報に関する複数の文から成る完全な説明や、いくつかの単語まで様々である。 文書検索はテキスト検索(Text Retrieval)の一部または同義とされることもある。テキスト検索は情報検索の一部であり、主に自然言語の形で格納された情報を扱う。1980年代に全文検索が生まれ、索引作成者の仕事の重要性が低下した。テキストデータベースは、パーソナルコンピュータとCD-ROMによって分散化していった。テキスト検索はインターネット検索エンジンの基盤であるため、今日も重要な研究分野となっている。.

22 関係: ページランクパーソナルコンピュータインターネットエキスパートシステムクエリソート全文検索CD-ROM知識ベース統計学記事転置インデックス自然言語自然言語処理MeSH接尾辞木推論検索エンジン潜在意味解析情報検索文書分類1980年代

ページランク

ページランク (PageRank) は、ウェブページの重要度を決定するためのアルゴリズムであり、検索エンジンのGoogleにおいて、検索語に対する適切な結果を得るために用いられている中心的な技術。Googleの創設者のうちラリー・ペイジとセルゲイ・ブリンによって1998年に発明された。名称の由来は、ウェブページの"ページ"とラリー・ペイジの姓をかけたものである。 PageRankはGoogleの商標であり、またPageRankの処理は特許が取得されている。ただし、特許はGoogleではなくスタンフォード大学に帰属しており、Googleはスタンフォード大学から同特許の権利を独占的にライセンスされている。なお、同大学は特許の使用権と交換にGoogleから180万株を譲渡されているが、その株式は2005年に3億3,600万ドルで売却された。.

新しい!!: 文書検索とページランク · 続きを見る »

パーソナルコンピュータ

パーソナルコンピュータ(personal computer)とは、個人によって占有されて使用されるコンピュータのことである。 略称はパソコン日本独自の略語である。(著書『インターネットの秘密』より)またはPC(ピーシー)ただし「PC」という略称は、特にPC/AT互換機を指す場合もある。「Mac対PC」のような用法。。.

新しい!!: 文書検索とパーソナルコンピュータ · 続きを見る »

インターネット

インターネット(internet)は、インターネット・プロトコル・スイートを使用し、複数のコンピュータネットワークを相互接続した、グローバルな情報通信網のことである。 インターネットは、光ファイバーや無線を含む幅広い通信技術により結合された、地域からグローバルまでの範囲を持つ、個人・公共・教育機関・商用・政府などの各ネットワークから構成された「ネットワークのネットワーク」であり、ウェブのハイパーテキスト文書やアプリケーション、電子メール、音声通信、ファイル共有のピア・トゥ・ピアなどを含む、広範な情報とサービスの基盤となっている。.

新しい!!: 文書検索とインターネット · 続きを見る »

エキスパートシステム

パートシステム()は人工知能研究から生まれたコンピュータシステムで、人間の専門家(エキスパート)の意思決定能力をエミュレートするものである。専門家のように知識についての推論によって複雑な問題を解くよう設計されており、通常のプログラミングのようにソフトウェア開発者が設定した手続きに従うわけではない。1970年代に人工知能の研究者によって開発され、1980年代にわたって商業的に適用され、AIソフトウェアとして最初に成功を収めた形態である。日本語訳では専門家システムと言う場合もある。 エキスパートシステムは基本的に、特定の分野の問題についての情報を解析するルール群から構成されるプログラムであり、その情報はシステムの利用者が提供する。 問題の分析結果を提供するだけでなく、設計によっては利用者の行動を正しく導く指針を与えることもできる。通常のプログラムとは異なった独特の構造をしている。2つの部分で構成されており、1つはそのエキスパートシステムから独立している推論エンジンであり固定である。もう1つは知識ベースで、可変である。推論エンジンが知識ベースを使って推論を行う。80年代になると、利用者とやりとりするための対話インタフェースが第3の部分として登場した。利用者との会話によって知識ベースを構築することから、後に会話型 (en:Conversational Programming System) と呼ばれるようになった。 関連用語としてウィザードがある。エキスパートシステムのように、ウィザードもユーザが問題を解決するのを手助けする対話型コンピュータプログラムである。普通、ウィザードという用語は、ユーザにより入力された指針に従ってデータベースで検索するプログラムを指す。あいにく、これらの2つの定義の区別は確定したものではなくルールベースのプログラムの中にはウィザードと呼ばれるものもある。.

新しい!!: 文書検索とエキスパートシステム · 続きを見る »

クエリ

リ(query、 、 (クウィァリ))とは、一般に一連の問い合わせの中の個々の質問を意味する。.

新しい!!: 文書検索とクエリ · 続きを見る »

ソート

ート は、データの集合を一定の規則に従って並べること。日本語では整列(せいれつ)と訳される。(以前はその原義から分類という訳語が充てられていたが、もう使われていない) 主にコンピュータソフトにおけるリストに表示するデータに対し、全順序関係によって一列に並べることを指す。また、単に「ソート」といった場合、値の小さい方から大きい方へ順に並べる昇順(しょうじゅん、)を指すことが多い。その反対に値を大きい方から小さい方へ順に並べることを降順(こうじゅん、)という。 対象となるデータのデータ構造や必要な出力によって、使われるアルゴリズムは異なる。.

新しい!!: 文書検索とソート · 続きを見る »

全文検索

全文検索(ぜんぶんけんさく、Full text search)とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。.

新しい!!: 文書検索と全文検索 · 続きを見る »

CD-ROM

CD-ROM(シーディーロム、Compact Disc Read only memory、JIS X 6281-1992、ISO/IEC 10149:1989)は、コンピュータやゲーム機などで取り扱うデータが記録されているコンパクトディスクのこと。.

新しい!!: 文書検索とCD-ROM · 続きを見る »

知識ベース

知識ベース(knowledge base)はナレッジマネジメントのための特殊なデータベースであり、KBと略記されることもある。それは知識の検索を可能とし、知識を組織化し、知識をコンピュータ上に集合させたものである。.

新しい!!: 文書検索と知識ベース · 続きを見る »

統計学

統計学(とうけいがく、statistics、Statistik)とは、統計に関する研究を行う学問である。 統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている。 現在では、医学(疫学、EBM)、薬学、経済学、社会学、心理学、言語学など、自然科学・社会科学・人文科学の実証分析を伴う分野について、必須の学問となっている。また、統計学は哲学の一分科である科学哲学においても重要な一つのトピックになっている。.

新しい!!: 文書検索と統計学 · 続きを見る »

記事

記事(きじ)とは現象・存在・状況などを文字からなる単語を組み合わせ、文章で表した事物を、伝えるための文章である。.

新しい!!: 文書検索と記事 · 続きを見る »

転置インデックス

転置インデックス(てんちインデックス、Inverted index)とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。.

新しい!!: 文書検索と転置インデックス · 続きを見る »

自然言語

自然言語(しぜんげんご、natural language)とは、人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた言語である。分類として、音声言語と文字言語、口頭言語と書記言語、口語と文語といったような分類があるが、いずれも似ているようだが着目点や対比軸が異なる分類であり、混同してはならない。また、以上のような分類がいずれも当たらない言語もあり、例えば日本手話(「日本語対応手話」とは異なる)がそうである。.

新しい!!: 文書検索と自然言語 · 続きを見る »

自然言語処理

自然言語処理(しぜんげんごしょり、natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」()との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。 自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。.

新しい!!: 文書検索と自然言語処理 · 続きを見る »

MeSH

MeSH(メッシュ)は、Medical Subject Headings の頭文字であり、米国国立医学図書館 (NLM) が定める生命科学用語集(シソーラス)である。NLMがMEDLINEデータベースにおいて文献を管理する際、文献の内容を表す適切な用語を10〜15個程度文献に付与し、この用語により文献を検索・管理できるようにしているが、このときMeSHの用語を用いる。MeSHは毎年改訂されて新しい概念や語句が追加・修正され、最新の生命科学に対応できるようにしている。.

新しい!!: 文書検索とMeSH · 続きを見る »

接尾辞木

文字列 BANANA に $ を補った接尾辞木。根から葉(四角で表示)への6つの経路が6つの接尾辞 A$, NA$, ANA$, NANA$, ANANA$, BANANA$ に対応。四角の中の数字は対応する接尾辞の開始位置を示す。接尾辞リンクは破線の矢印で示されている。 接尾辞木(せつびじき)またはサフィックス木(Suffix tree)は、与えられた文字列の接尾部を木構造(基数木)で表すデータ構造であり、多くの文字列操作の高速な実装に利用されている。 文字列 S の接尾辞木は木構造であり、その枝には文字列が対応し、木構造の根から葉までの経路ごとにそれぞれ S の接尾部の1つが対応している。従って、これは S の接尾部に関する基数木である。 文字列 S からそのような木構造を構築するには、S の長さに対して線形な時間と空間を要する。構築できれば、いくつかの操作が高速化される(S の部分文字列を探す、誤字をある程度許容した上での部分文字列特定、正規表現パターンとのマッチングなど)。接尾辞木は最長共通部分文字列問題の線形な解法の1つでもある。これらの高速化の代償として、接尾辞木に要するメモリ空間は文字列そのものを格納するのに要するメモリ空間よりもかなり大きくなる。.

新しい!!: 文書検索と接尾辞木 · 続きを見る »

推論

推論(すいろん、inference)とは、既知の事柄を元にして未知の事柄について予想し、論じる事である。.

新しい!!: 文書検索と推論 · 続きを見る »

検索エンジン

検索エンジン(けんさくエンジン、)は、狭義にはインターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど)を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。 狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。広義の検索エンジンとしては、ある特定のウェブサイト内に登録されているテキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。 検索エンジンは、検索窓と呼ばれるボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。.

新しい!!: 文書検索と検索エンジン · 続きを見る »

潜在意味解析

潜在意味解析(Latent Semantic Analysis, LSA)は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている。情報検索の分野では、潜在的意味索引または潜在意味インデックス(Latent Semantic Indexing, LSI)とも呼ばれている。.

新しい!!: 文書検索と潜在意味解析 · 続きを見る »

情報検索

情報検索(じょうほうけんさく)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索するためのコンピュータ側における仕組みを記述している。 情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。.

新しい!!: 文書検索と情報検索 · 続きを見る »

文書分類

文書分類(ぶんしょぶんるい、Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。.

新しい!!: 文書検索と文書分類 · 続きを見る »

1980年代

1980年代(せんきゅうひゃくはちじゅうねんだい)は、西暦(グレゴリオ暦)1980年から1989年までの10年間を指す十年紀。この項目では、国際的な視点に基づいた1980年代について記載する。.

新しい!!: 文書検索と1980年代 · 続きを見る »

ここにリダイレクトされます:

テキスト検索

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »