ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
無料
ブラウザよりも高速アクセス!
 

非構造化データ

索引 非構造化データ

非構造化データ (Unstructured Data) とは、構造定義されておらず、主に関係モデルにうまく適合しないデータモデルに分類されるデータを指す。.

44 関係: Apache Hadoop人工知能メタデータワールド・ビームパターン認識ビッグデータビジネスインテリジェンステキストテキストマイニングデータデータマイニングデータモデルデータベース列指向データベース管理システム分散ファイルシステムインメモリデータベースインターネットエンタープライズサーチオートノミーオープンテキストオブジェクトデータベースコンピュータ内容分析問い合わせ言語動画画像音声計算機転置インデックス関係モデル関係データベース自然言語処理IBMNoSQLSAP (企業)SAS InstituteSQLXMLデータベース検索エンジン機械学習情報情報技術情報検索文書

Apache Hadoop

Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。 to the project and uses Hadoop extensively in its web search and advertising businesses.

新しい!!: 非構造化データとApache Hadoop · 続きを見る »

人工知能

250px 人工知能(じんこうちのう、artificial intelligence、AI)とは、「計算機(コンピュータ)による知的な情報処理システムの設計や実現に関する研究分野」を指す。.

新しい!!: 非構造化データと人工知能 · 続きを見る »

メタデータ

メタデータ(metadata)、メタ情報とは、メタなデータ、すなわちデータについてのデータという意味で、あるデータが付随して持つそのデータ自身についての付加的なデータを指す。.

新しい!!: 非構造化データとメタデータ · 続きを見る »

ワールド・ビーム

ワールド・ビーム(Worldbeam)とは、エール大学のコンピューターサイエンティストの教授であるデビット・ジェランター(:en:David Gelernter)と、アジャ・ロヤン(Ajay Royan)が提唱した概念。 元々は、メールやブログやRSS等のインターネット上のデータが、それ自体が独立した情報の塊としては認識されず、時系列的に流れていくストリーム的なものとして認識されていくであろうとして、インフォメーション・ビーム(Information beams)という概念を提唱した。更にその考え方を拡張させ、世界中の情報が、世界規模で束ねられた情報の流れ、「ワールド・ビーム」とよべうるものとして認識されていくであろうというコンセプトを提唱した。.

新しい!!: 非構造化データとワールド・ビーム · 続きを見る »

パターン認識

パターン認識(パターンにんしき、Pattern recognition)は自然情報処理のひとつ。画像・音声などの雑多な情報を含むデータの中から、一定の規則や意味を持つ対象を選別して取り出す処理である。.

新しい!!: 非構造化データとパターン認識 · 続きを見る »

ビッグデータ

ビッグデータ (big data)とは、一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。 ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管、検索、共有、転送、解析、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある by Cat Casey and Alejandra Perez。 用語自体はデータマイニングで一般的に使われてきたが、2010年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた。.

新しい!!: 非構造化データとビッグデータ · 続きを見る »

ビジネスインテリジェンス

ビジネスインテリジェンス(、)は、経営・会計・情報処理などの用語で、企業などの組織のデータを、収集・蓄積・分析・報告することで、経営上などの意思決定に役立てる手法や技術のこと。 ビジネスインテリジェンスの技術は、経営判断上の過去・現在・未来予測などの視点を提供する。ビジネスインテリジェンス技術で使われる一般的な機能には、OLAP、データ分析、データマイニング、プロセスマイニング(en)、テキストマイニング、複合イベント処理(CEP、en)、ビジネス業績管理(BPM)、ベンチマーキング、予測分析(en)、規範分析(en)などがある。 ビジネスインテリジェンスの対象データには、累積データを蓄積するデータウェアハウス、特定目的に合わせて抜き出したデータマートなどがあり、これらを作成更新する技術にはETLなどがある。 ビジネスインテリジェンスの目的はビジネス上の意思決定の支援であるため、意思決定支援システム(DSS)の1つとも呼ばれている (D. J. Power, 2007) 。また市場競争上で優位獲得を目的とした意思決定の支援システムであるため、コンペディティブインテリジェンス(en)と呼ばれる事もある。.

新しい!!: 非構造化データとビジネスインテリジェンス · 続きを見る »

テキスト

テキスト(text、Text、texte、テクスト)は、文章や文献のひとまとまりを指して呼ぶ呼称。 言葉によって編まれたもの、という含みを持つ語で、textile(テキスタイル、「織物」)と同じくラテン語の「織る」が語源である。.

新しい!!: 非構造化データとテキスト · 続きを見る »

テキストマイニング

テキストマイニング()は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。 テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。.

新しい!!: 非構造化データとテキストマイニング · 続きを見る »

データ

データ(data)とは、事実や資料をさす言葉。言語的には複数形であるため、厳密には複数の事象や数値の集まりのことを指し、単数形は datum(データム)である。.

新しい!!: 非構造化データとデータ · 続きを見る »

データマイニング

データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では"Data mining"の語の直接の起源となった研究分野であるknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。.

新しい!!: 非構造化データとデータマイニング · 続きを見る »

データモデル

データモデルは、班・要員間の意思疎通のための事業データを文書化し、組織化し、そして特にどのようにデータを格納し利用するかの、応用ソフト設計のための計画として使うソフトウェア工学の一つの抽象モデルである。 Hoberman (2009)によれば、「データモデルは、組織内での意思疎通を改善し、それによってより柔軟で安定したアプリケーション環境に導く、真の情報の部分集合を正確に説明するシンボルとテキストの集合を使う、事業とIT専門家の両方のための、道筋を見つける道具である。」 データモデルは、データまたは構造化データの構造を明示的に決める。データモデルの代表的な応用は、データベース・モデル、情報システム の設計、及びデータの交換を可能にすることを含む。通常データモデルは、データモデリング言語によって規定するMichael R. McCaleb (1999).

新しい!!: 非構造化データとデータモデル · 続きを見る »

データベース

データベース(database, DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたものを指すが、紙の住所録などをデータベースと呼ぶ場合もある。コンピュータを使用したデータベース・システムでは、データベース管理用のソフトウェアであるデータベース管理システムを使用する場合も多い。.

新しい!!: 非構造化データとデータベース · 続きを見る »

列指向データベース管理システム

列指向データベース管理システムは、データベース管理システム (DBMS) の内部構造において、列のデータをひとまとまりにして取り出すときに効率的であるように設計されたものである。これはデータウェアハウスや図書館のカタログのように、大量の類似のデータ項目に対し集計が行われるもの対して有用である。, Stonebraker et al., Proceedings of the 31st VLDB Conference, Trondheim, Norway, 2005このアプローチはvalue-basedなストレージ構造を使用する行指向データベースや相関データベースと対比される。 列指向データベース管理システムは、一般的に「カラムナデータベース」 (Columnar Database) とも呼ばれる。.

新しい!!: 非構造化データと列指向データベース管理システム · 続きを見る »

分散ファイルシステム

分散ファイルシステム (distributed file system) またはネットワークファイルシステム (network file system) とは、複数のホストがコンピュータネットワークを経由して共有しつつファイルにアクセスすることを可能にするファイルシステムである。複数のマシン上で複数のユーザーがファイルやストレージ資源を共有できるようにする。 クライアントノードはファイルシステムを構成している二次記憶装置に直接アクセスことはできないが、通信プロトコルを使ってネットワーク経由でやり取りする。その通信プロトコルがどう設計されているかにもよるが、アクセスリストまたはケーパビリティに基づいてクライアントとサーバの双方でファイルシステムへのアクセスを制限することも可能である。 これに対してでは、全ノードがファイルシステムを構成しているストレージ全体に一様に直接アクセスできる。その場合、アクセス制御はクライアント側の責任となる。 分散ファイルシステムには一般に、透過的レプリケーションとフォールトトレラント性に関する機能がある。すなわち、ファイルシステムを構成するノード群の一部がオフラインになっても、データを失うことなくシステムとして機能し続ける。 分散ファイルシステムと分散データストアの違いはあいまいだが、DFS は一般にLANでの利用に特化していることが多い。.

新しい!!: 非構造化データと分散ファイルシステム · 続きを見る »

インメモリデータベース

インメモリデータベース(IMDBあるいはメインメモリデータベース、MMDB)はデータストレージを主にメインメモリ上で行うデータベース管理システムである。ディスクストレージ機構によるデータベースシステムと対比される。メインメモリデータベースは内部最適化アルゴリズムが簡素であり、相対的に少ないCPU命令を実行するので、ディスク最適化されたデータベースと比較して高速である。メモリ上でデータアクセスを行うことで、ディスクと比較し、より高速かつ安定したパフォーマンスを提供できる。通信ネットワーク機器など、応答時間が肝要であるアプリケーションにおいて、インメモリデータベースは多用されている。.

新しい!!: 非構造化データとインメモリデータベース · 続きを見る »

インターネット

インターネット(internet)は、インターネット・プロトコル・スイートを使用し、複数のコンピュータネットワークを相互接続した、グローバルな情報通信網のことである。 インターネットは、光ファイバーや無線を含む幅広い通信技術により結合された、地域からグローバルまでの範囲を持つ、個人・公共・教育機関・商用・政府などの各ネットワークから構成された「ネットワークのネットワーク」であり、ウェブのハイパーテキスト文書やアプリケーション、電子メール、音声通信、ファイル共有のピア・トゥ・ピアなどを含む、広範な情報とサービスの基盤となっている。.

新しい!!: 非構造化データとインターネット · 続きを見る »

エンタープライズサーチ

ンタープライズサーチ(Enterprise Search、エンタープライズ検索、企業内検索)は、内外のウェブサイトも含め、企業内、社内、部署内の書類、人事、経営情報等を統合し、検索できるようにするためのシステム、またはそのコンセプトのことである。エンタープライズサーチエンジン、企業向け検索エンジンと呼ばれることもある。Gartnerでは、エンタープライズサーチを、情報アクセス技術(Information access technology)という一般的な呼称で呼んでいる。インデックスを活用したデータベース(Index-based data management)として分類されることもあり、高速なデータアクセス手段の一つでもある。.

新しい!!: 非構造化データとエンタープライズサーチ · 続きを見る »

オートノミー

ートノミー (Autonomy Corporation) は、アメリカ合衆国のサンフランシスコとイギリスのケンブリッジに本拠を置く、エンタープライズソフトウェア企業である。オートノミーは、ケンブリッジ大学の研究により開発された独自に組み合わされたテクノロジを駆使し、ベイズ推定をベースにしたパターン認識技術を応用したエンタープライズサーチやナレッジマネジメントなどの様々なアプリケーションを開発している。ロンドン証券取引所に上場しており、FTSE100種総合株価指数の構成銘柄の1つである。日本法人はオートノミー株式会社。以前は独立した企業だったが、2011年10月にヒューレット・パッカードに買収されている。.

新しい!!: 非構造化データとオートノミー · 続きを見る »

オープンテキスト

ープンテキスト(、; )は、1991年に設立以来検索エンジンやコラボレーションソフトウェアを提供し、非構造化データを包括的に管理・活用するソリューション群を提供。世界140か国にオフィスを展開しており、約10万社の顧客を抱え、取引先は60万社にも及んでいる。 日本法人は、OpenText ECM(旧製品名:Livelink)やBPM、SAP連携ソリューションなどを提供するオープンテキスト株式会社をはじめ、Business Network事業としてFAXソリューションを手掛けるエクスパダイト株式会社やEDIなどを通じて企業間データ連携を支援するB2Bインテグレーションサービスを提供するGXS株式会社の3社があり、各事業で相乗効果を発揮しながらEIM(エンタープライズ情報管理)分野でのビジネスを展開している。.

新しい!!: 非構造化データとオープンテキスト · 続きを見る »

オブジェクトデータベース

ブジェクトデータベースは、オブジェクト指向プログラミングで使うオブジェクトの形式で表現されるデータを格納するデータベースである。 オブジェクト指向データベースともいう。オブジェクト指向プログラミングにおいて、オブジェクトをデータベースに格納(永続化)する方法の一つである。オブジェクトデータベースは、オブジェクト指向プログラミング言語と密接に連携する。 オブジェクトデータベースのデータベース管理システム (DBMS) を、.

新しい!!: 非構造化データとオブジェクトデータベース · 続きを見る »

コンピュータ

ンピュータ(Computer)とは、自動計算機、とくに計算開始後は人手を介さずに計算終了まで動作する電子式汎用計算機。実際の対象は文字の置き換えなど数値計算に限らず、情報処理やコンピューティングと呼ばれる幅広い分野で応用される。現代ではプログラム内蔵方式のディジタルコンピュータを指す場合が多く、特にパーソナルコンピュータやメインフレーム、スーパーコンピュータなどを含めた汎用的なシステムを指すことが多いが、ディジタルコンピュータは特定の機能を実現するために機械や装置等に組み込まれる組み込みシステムとしても広く用いられる。電卓・機械式計算機・アナログ計算機については各項を参照。.

新しい!!: 非構造化データとコンピュータ · 続きを見る »

内容分析

内容分析(ないようぶんせき、content analysis、あるいはテキスト分析、文章分析)は、マスメディア研究やコミュニケーション研究などの社会科学において、雑誌や新聞記事等の文章の内容や、テレビ番組の内容、コミュニケーション内容(メッセージ)を、客観的かつ数量的に分析するための研究方法。本やウェブサイトや絵画や法律など、記録されたコミュニケーションの研究。インタビュー内容の分析のために社会科学においてよく用いられる他、文献学、解釈学、記号論において、意味の作者や信憑性に関して文章を研究するための研究方法論でもある。 ハロルド・ラスウェルによれば、内容分析の主な問とは、「誰に対して、なぜ、何の範囲と何の効果のために、誰か何を言っているのか」ということである。Kimberly A. Neuendorf (2002)は、内容分析の6部分による定義を提唱している。それは「内容分析は、科学的研究法(客観性-間主観、演繹的デザイン、信頼性、有効性、概括、反復可能性、仮説検証に対する注意を含む)を使用しているメッセージの量的または質的な技術による詳細な分析。それは、測定される変数の種類や、作られ発表されたメッセージにおける文章の種類により制限されない」ということである。 内容分析は、もともとは新聞記事の面積を測定したり、出てくる単語の量を測定するなどの方法が用いられてきたが、近年は、コンピューターの使用により、より高度な統計学を用いた分析も行われている。.

新しい!!: 非構造化データと内容分析 · 続きを見る »

問い合わせ言語

問い合わせ言語(といあわせげんご、query language:略記QL)とは、コンピュータのデータに対して問い合わせをするためのコンピュータ言語である。 データの構造(データモデル)によってさまざまである。たとえば、関係データベースに対する問い合わせ言語は、関係代数の集合演算、比較、ソートといった機能を持つものが多い。 なお、コンピュータのデータベースを扱うためのコンピュータ言語をデータベース言語という。 問い合わせ言語とデータベース言語は、概念的に重なる部分もあるが、同義ではない。.

新しい!!: 非構造化データと問い合わせ言語 · 続きを見る »

動画

動画(どうが、video、movie)とは、動く画像(動画像、videograph)のことで、映像と呼称されることも多い。アニメーション(animation)の日本語訳でもある。 静止画と対極の語であり、狭い定義では「動く画像」、広い定義では時間軸に同期させた音声・音楽と共に提供されるメディアパッケージを指す場合もある。選択した静止画を順次切り替える「スライドショー」「紙芝居」とは異なり、連続して変化する静止画像を高速に切り替え続けると人間の視覚の錯覚として静止画が動いているように見えるを利用した表現様式(メディア)である。 日本語の「動画」は、アニメーター・映像作家の政岡憲三が「アニメーション」の訳語として考案・提唱したものが最初とされ、「〜動画」という社名のアニメ会社も複数設立されるなど実際にその意味で使われてきたが、2000年代以降はアニメーションのみにとどまらず、上記のような性質を持った表現様式も含むより広範囲な映像物を指す言葉としても使用されている。.

新しい!!: 非構造化データと動画 · 続きを見る »

画像

画像(がぞう)とは、事象を視覚的に媒体に定着させたもので、そこから発展した文字は含まない(例:文字と画像、書画)。定着される媒体は主に2次元平面の紙であるが、金属、石、木、竹、布、樹脂や、モニター・プロジェクター等の出力装置がある。また、3次元の貼り絵、ホログラフィー等も含まれる。.

新しい!!: 非構造化データと画像 · 続きを見る »

音声

音声(おんせい)とは人の声、すなわち人が発声器官を通じて発する音である。 基本要素として母音と子音がある。さらに、これらを細かく分類して、特定の言語で意味の違いを弁別・認識する音声の基本単位を音素といい、特定の言語に依存せずに、音声学で分類・定義する音声の基本単位を単音という。.

新しい!!: 非構造化データと音声 · 続きを見る »

計算機

計算機(けいさんき)は、計算を機械的に、さらには自動的に行う装置である。人間が行う計算を援助するのみのものや、手動操作で自動的ではないものなどは計算器という文字表現をすることがある。.

新しい!!: 非構造化データと計算機 · 続きを見る »

転置インデックス

転置インデックス(てんちインデックス、Inverted index)とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。.

新しい!!: 非構造化データと転置インデックス · 続きを見る »

関係モデル

関係モデル(かんけいモデル、リレーショナルモデル、relational model)はエドガー・F・コッドが集合論と述語論理に基づいて考案したデータベースモデルであり、関係データベース(リレーショナルデータベース)の基礎となっている。.

新しい!!: 非構造化データと関係モデル · 続きを見る »

関係データベース

関係データベース(かんけいデータベース、リレーショナルデータベース、英: relational database)は関係モデル(リレーショナルデータモデル、後述)にもとづいて設計、開発されるデータベースである。関係データベースを管理するデータベース管理システム (DBMS) を関係データベース管理システム (RDBMS) と呼ぶ。 Oracle Database、Microsoft SQL Server、MySQL、PostgreSQL、DB2、FileMaker、H2 Database などがRDBMSである関係データベースに含まれないデータベースは、NoSQL などを参照。 。.

新しい!!: 非構造化データと関係データベース · 続きを見る »

自然言語処理

自然言語処理(しぜんげんごしょり、natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」()との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。 自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。.

新しい!!: 非構造化データと自然言語処理 · 続きを見る »

IBM

IBM(アイビーエム、正式社名: International Business Machines Corporation)は、民間法人や公的機関を対象とするコンピュータ関連製品およびサービスを提供する企業である。本社はアメリカ合衆国ニューヨーク州アーモンクに所在する。世界170カ国以上で事業を展開している。.

新しい!!: 非構造化データとIBM · 続きを見る »

NoSQL

NoSQL(一般に "Not only SQL" と解釈される)とは、関係データベース管理システム (RDBMS) 以外のデータベース管理システムを指すおおまかな分類語である。関係データベースを杓子定規に適用してきた長い歴史を打破し、それ以外の構造のデータベースの利用・発展を促進させようとする運動の標語としての意味合いを持つ。関係モデルではないデータストアの特徴として、固定されたスキーマに縛られないこと、関係モデルの結合操作を利用しないこと(場合によっては単にそのような機能が欠落しているだけ)、水平スケーラビリティが確保しやすい事が多いこと、トランザクションを利用できないものが多いことなどが挙げられる。学術的な世界では、この種のデータベースのことを構造型ストレージ (structured storage) と呼ぶことが多い。 NoSQL系データベース管理システムは、データの格納および取得が高度に最適化されているものが多い。その最適化のために機能性を最小限にしているものもある。その最たる例が、「値」およびそれを取得するための「キー」だけを格納できるKey-Value型データベースである。NoSQL系データベースは、関係データベースのような汎用性は欠くものの、その制約された条件下ではRDBMSより高いパフォーマンスを持つ。そのためビッグデータ系ソリューションでしばしば活用される。 NoSQL系データベース管理システムが有用な場面は、関係モデルを必要としないデータを扱う時や、大量のデータを扱う時である。用途は多様であり、数百万のkey-valueペアを格納したり、数10個程度の連想配列を格納したり、数百万の構造的データを格納したりと、様々に使われる。この構造は、大規模なデータを統計的に解析したり、増えつづける情報をリアルタイムに解析するのにも便利である。 産業界での有名な実装として、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがある。オープンソースの実装も数多く存在し、例えばMongoDB、Redis、Apache HBase、HyperTable, Apache Cassandraなどがある。.

新しい!!: 非構造化データとNoSQL · 続きを見る »

SAP (企業)

SAP SE(エスエイピー・エスイー:英語、エス・アーペー・エスエー:SAP SE)は、ドイツ中西部にあるヴァルドルフに本社を置くヨーロッパ最大級のソフトウェア会社。 フランクフルト証券取引所、ニューヨーク証券取引所上場企業(, )。.

新しい!!: 非構造化データとSAP (企業) · 続きを見る »

SAS Institute

CEO ジム・グッドナイト SAS Instituteは、アメリカ合衆国ノースカロライナ州に本社をおき、統計解析ソフトSASシステムを開発・販売するソフトウェア企業である。 キャッチコピーは THE POWER TO KNOW.

新しい!!: 非構造化データとSAS Institute · 続きを見る »

SQL

SQL(エスキューエルよりデジタル大辞泉、IT用語がわかる辞典を参照、シークェル、シーケルよりDBM用語辞典を参照)は、関係データベース管理システム (RDBMS) において、データの操作や定義を行うためのデータベース言語(問い合わせ言語)、ドメイン固有言語である。エドガー・F・コッドによって考案された関係データベースの関係モデルにおける演算体系である、関係代数と関係論理(関係計算)にある程度基づいている。 データベース言語の国際標準としてのSQLは何かの略語ではない。 SQLは、シークェル と読まれることもある。これは、SQLの元となったデータベース言語が、IBMが開発したRDBMSの実験実装であるSystem Rの操作言語「SEQUEL (Structured English Query Language)」であったことが由来である。 SQLに対しては、関係代数と関係論理に忠実に準拠していないとして批判する意見がある(The Third Manifesto - クリス・デイト、ヒュー・ダーウェン)。.

新しい!!: 非構造化データとSQL · 続きを見る »

XMLデータベース

XMLデータベースとは、XMLを扱うための機能を持つデータベースである。 狭義ではXMLのツリー構造をそのままデータ構造として持つ物を言うが、実際は伝統的な関係データベースにXMLを格納するものや、単にテキストファイルとしてXMLを格納するものなど様々である。現在ではXPath、XQueryで検索するデータベースをXMLデータベースと呼ぶことが多い。 現在でも広く用いられている関係データベースでは、一度作成されたデータ構造を運用中に変更することが一般的に困難なのに対し、XMLデータベースは非常に拡張性が高い。それはXMLの仕様がスキーマを必須としておらずWell-formed(整形式)の形態を認めているからである。そのため、完全に仕様が決まりきらないで開発を進めたり、途中でデータ構造が変化することを前提としたシステムを比較的容易に構築することができる。 現在の実用上の問題は、関係データベースにおけるSQLのような統一規格がないことであったが、最近XMLDBの検索はXPath、XQueryで行うXML:DB規格が策定され、NeoCoreXMS、TX1を初めとする各社によって採用されはじめている。 また、性能上の問題も普及を妨げていたが、それは大きく改善されつつあり、関係データベースもハードウェアやアルゴリズムの開発によって性能上の問題を克服してきた歴史を持つため、XMLデータベースも同様の発展を遂げることが期待される。 Oracle Database、IBM DB2、Microsoft SQL Server などの関係データベースでもXPath、XQueryで検索する機能を実装しており、XMLデータを格納するデータベース製品の選択肢が増えている。一方で、XMLのデータ量や階層構造の深さやパフォーマンス要件によっては、メーカーからベンチマークテストの結果を入手するなどしてXMLデータベース・関係データベースのいずれを採用するかは慎重に製品を選定する必要がある。.

新しい!!: 非構造化データとXMLデータベース · 続きを見る »

検索エンジン

検索エンジン(けんさくエンジン、)は、狭義にはインターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど)を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。 狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。広義の検索エンジンとしては、ある特定のウェブサイト内に登録されているテキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。 検索エンジンは、検索窓と呼ばれるボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。.

新しい!!: 非構造化データと検索エンジン · 続きを見る »

機械学習

機械学習(きかいがくしゅう、machine learning)とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。.

新しい!!: 非構造化データと機械学習 · 続きを見る »

情報

情報(じょうほう、英語: information、ラテン語: informatio インフォルマーティオー)とは、.

新しい!!: 非構造化データと情報 · 続きを見る »

情報技術

情報技術(じょうほうぎじゅつ、information technology、IT)とは、情報に関する、特にコンピュータなどの技術(の総称)に関連した表現である。また、通信を含めて情報通信技術(じょうほうつうしんぎじゅつ、information and communication technology、ICT)という表現も使用されている。 米国のITAAの定義では「コンピュータをベースとした情報システム、特にアプリケーションソフトウェアやコンピュータのハードウェアなどの研究、デザイン、開発、インプリメンテーション、サポートあるいはマネジメント」である。 日本では戦前以来の縄張りに由来して、通信事業は総務省の所管であるため、総務省はICTの語を、経済産業省はITの語を用いることが多い。.

新しい!!: 非構造化データと情報技術 · 続きを見る »

情報検索

情報検索(じょうほうけんさく)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索するためのコンピュータ側における仕組みを記述している。 情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。.

新しい!!: 非構造化データと情報検索 · 続きを見る »

文書

200px 文書(ぶんしょ、もんじょ)は、参照されることを前提として記録される情報である。一般には漢音でぶんしょという。もんじょ(呉音)と呼ぶ場合、特に古文書学(こもんじょがく)では、差出人が相手方に意思、用件を伝えるために書いたものをいう(この読みは「古文書」以外には用いられない)。 伝統的には紙に文字で記録されたものをいう。典型的には法律や契約が文書に記録される。これは文書の改変が困難であることと、参照が容易であることによる。この場合、文書に対比される概念は口頭である。 今日では、紙以外のメディアに電子的・磁気的に記録され、コンピュータによって操作される情報も文書の一つである。この場合、英語のままドキュメント (document) と呼ばれることも多い。コンピュータの文書はpdf,Wordなどのファイル単位で扱われる。 文書はしばしば裁判の証拠として利用される。証拠調べには検証、書証が挙げられるが、検証は書証と異なり文書の内容を調べる手続きではなく文書の色や形状などを調べる手続きだとされている。 あらかじめ証拠調べをしておかなければその証拠を使用することが困難な事情、例えば原本が滅失して成立の真正性が証明できなくなる場合や、改竄されて現状が保存できなくなる場合のために、証拠保全が用いられる。滅失のおそれがある場合には書証、改竄のおそれがある場合には検証(具体的にはコピー、デジタルカメラでの撮影)を用いるとされている。 挙証者が所持しておらず相手方当事者又は第三者の所持する文書については文書提出命令、文書送付嘱託によって証拠調べができる。文書提出命令には文書送付嘱託と異なり文書を出さない所持者に制裁が加えられるので即時抗告制度がある。 文書は将来に向けて変更がありえる情報、記録は文書の一種であり過去の事実に関する情報、と言う概念もある。.

新しい!!: 非構造化データと文書 · 続きを見る »

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »