ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
ダウンロード
ブラウザよりも高速アクセス!
 

クローラ

索引 クローラ

ーラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。.

35 関係: AltaVista岡崎市立中央図書館事件マイニングブラウニーマイクロソフトネイバーハイパーリンクメールアドレスメールアドレス検索ロボットロボットプログラム (コンピュータ)データベースダウンロードダウンロードマネージャインフォシークインクトミインターネットボットイーフロンティアウェブスクレイピングスパム (メール)ソフトウェアBaiduspiderBing統計百度電子メールGNU WgetGoogleGooglebotHyperText Markup LanguageRobots Exclusion StandardWorld Wide WebYahoo!Yetibot検索エンジン検索エンジンスパム

AltaVista

AltaVista(アルタビスタ)は、アメリカの検索エンジン会社。また、同社が経営していた検索エンジンの名称。AltaVista という言葉は「高いところから見る」という意味。 ディジタル・イクイップメント・コーポレーション (DEC) の研究所に所属していたLouis Monier、Mike Burrows、Joella Paquette、ポール・フラハーティらが1995年に開発し、同年12月に公開された。Google の普及とともに勢力は衰えたが、1990年代後半には本格的な全文検索サービスとして英語圏でよく利用されていた検索エンジンである。 DEC の当初の目的は Alpha サーバの性能を示すことで、このため初期の URL は DEC ドメイン内の http://www.altavista.digital.com だった。研究所はインターネット上のあらゆるページの単語をインデックス化して保存する方法を考え出し、高速な全文検索システムを完成させた。日本語や中国語といった非ラテン語への対応も早く、無料インターネット機械翻訳サービスの Babel Fish (AltaVista Translation) も提供していた。 1998年のコンパックの DEC 買収に伴いコンパックの一事業となったが、1999年にスピンオフし非公開企業となり、同年6月にはCMGIに買収された。さらに2003年2月にオーバーチュアに買収され、2004年3月にはオーバーチュアが Yahoo! に買収され社名が "Yahoo! Search Marketing" となり、Yahoo! 傘下に入った AltaVista は Yahoo! の検索データベースを使用し始めた。2008年5月21日から、それまでは AltaVista にて提供されていた翻訳サービス Babel Fish が Yahoo! 上にて提供されている。 Yahoo! の事業再編により、AltaVista は AlltheWeb(2011年4月閉鎖)と共に閉鎖・縮小の方向となっており、2013年7月8日をもってサービスを終了することとなった。末期はドメインおよびトップページは維持されていたものの、検索サービスは全て Yahoo! Search にリダイレクトされていた。.

新しい!!: クローラとAltaVista · 続きを見る »

岡崎市立中央図書館事件

岡崎市立中央図書館事件(おかざきしりつちゅうおうとしょかんじけん)は、2010年3月頃に岡崎市立図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件である。利用者に攻撃の意図はなく、また、根本的な原因が図書館側のシステムの不具合にあったことから論議を呼んだ。逮捕された人物が取調べの後、Librahackというサイトを立ち上げて解説をしたことから、Librahack事件とも呼ばれる。.

新しい!!: クローラと岡崎市立中央図書館事件 · 続きを見る »

マイニングブラウニー

株式会社マイニングブラウニー(英称:MiningBrownie,Inc.)は、東京都中央区に本社を置く、独自のマーケティングツールをSaaS形式で提供する提供企業である。.

新しい!!: クローラとマイニングブラウニー · 続きを見る »

マイクロソフト

マイクロソフト()は、アメリカ合衆国ワシントン州に本社を置く、ソフトウェアを開発・販売する会社である。1975年4月4日にビル・ゲイツとポール・アレンらによって設立された。.

新しい!!: クローラとマイクロソフト · 続きを見る »

ネイバー

ネイバー(、)は、韓国最大手のインターネット検索ポータルサイトである。運営会社は、NAVER Corporation。 日本で提供していたインターネット検索サービス「NAVER (ネイバー)」の運営はLINE株式会社(旧NHN Japan、旧ネイバージャパン株式会社を吸収合併)が行っていた。また、「NAVER」はNHN Japanのウェブサービス事業におけるフラッグシップブランドの名称でもある。.

新しい!!: クローラとネイバー · 続きを見る »

ハイパーリンク

ハイパーリンク(Hyperlink)とは、ハイパーテキストにおいて、複数の文書を結び付ける役割を担う「参照」である。ハイパーテキストの根幹をなす。単に「リンク」とも呼ばれる。 最もよく使われているであろうとされるリンクは、World Wide Web(WWW)におけるUniform Resource Locator(URL)によるものである。.

新しい!!: クローラとハイパーリンク · 続きを見る »

メールアドレス

電子メールアドレス(でんしメールアドレス、英語:Electronic mail address)、Eメールアドレス(イーメールアドレス、英語:email address、e-mail address)は電子メールにおける送信先や発信元を表す。略称としてメールアドレス、アドレス、メルアド、メアドなどがある。漢字で言うと電子郵便住所である。.

新しい!!: クローラとメールアドレス · 続きを見る »

メールアドレス検索ロボット

メールアドレス検索ロボット(メールアドレスけんさくロボット)とは、ウェブサイトからメールアドレスを収集する自動巡回プログラムのこと。メールアドレス収集ロボット、スパムボット (Spambot) ともいわれる。 このプログラムによって収集されたメールアドレスは、主にスパムメールを送信するために使用されており、問題となっている。.

新しい!!: クローラとメールアドレス検索ロボット · 続きを見る »

ロボット

ボット(robot)は、人の代わりに何等かの作業を自律的に行う装置、もしくは機械のこと。 主に以下に大別することが可能である。.

新しい!!: クローラとロボット · 続きを見る »

プログラム (コンピュータ)

ンピュータプログラム(英:computer programs)とは、コンピュータに対する命令(処理)を記述したものである。コンピュータが機能を実現するためには、CPUで実行するプログラムの命令が必要である。 コンピュータが、高度な処理を人間の手によらず遂行できているように見える場合でも、コンピュータは設計者の意図であるプログラムに従い、忠実に処理を行っている。実際には、外部からの割り込み、ノイズなどにより、設計者の意図しない動作をすることがある。また設計者が、外部からの割り込みの種類を網羅的に確認していない場合もある。.

新しい!!: クローラとプログラム (コンピュータ) · 続きを見る »

データベース

データベース(database, DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたものを指すが、紙の住所録などをデータベースと呼ぶ場合もある。コンピュータを使用したデータベース・システムでは、データベース管理用のソフトウェアであるデータベース管理システムを使用する場合も多い。.

新しい!!: クローラとデータベース · 続きを見る »

ダウンロード

ダウンロード(Download)は接続されたコンピュータ間に存在するデータ(ファイルなど)を上流ノードから下流ノードへ転送することを指す。日本語では「落とす」という言い換え方もある。また、受信とも言われるが、上流ノードの指示で下流ノードへ転送する場合は送信となる。対義語としてはアップロードが挙げられる。.

新しい!!: クローラとダウンロード · 続きを見る »

ダウンロードマネージャ

ダウンロードマネージャ (Download Manager) は、インターネット上に存在する各種ファイルをダウンロードするためのソフトウェア。ダウンローダ (Downloader) とも呼ばれる。.

新しい!!: クローラとダウンロードマネージャ · 続きを見る »

インフォシーク

インフォシーク (Infoseek) は、日米のInfoseek社、および同社が運営していたポータルサイト。 後にアメリカ法人はウォルト・ディズニー・カンパニーに買収され、同社のポータルサイトとなった。日本法人は楽天に買収・合併され、現在は楽天が「Infoseek」ブランドで運営している。.

新しい!!: クローラとインフォシーク · 続きを見る »

インクトミ

インクトミ(Inktomi Corporation)は、インターネットサービスプロバイダ向けのソフトウェア開発を行っていたカリフォルニア州の企業である。1996年、カリフォルニア大学バークレー校の教授エリック・ブリューワー (Eric Brewer)と大学院生ポール・ゴーチエ (Paul Gauthier) が創設し、彼らが開発した検索エンジンが人気を呼び会社を設立するがインターネット・バブル崩壊後に Yahoo! に買収される。.

新しい!!: クローラとインクトミ · 続きを見る »

インターネットボット

インターネットボット(Internet bot)は、インターネット上で自動化されたタスクを実行するアプリケーションソフトウェア。Webボットあるいは単にボットとも呼ぶ。一般に単純な繰り返しのタスクをこなし、そのようなタスクに関しては人間が手でやるよりも高速である。ボットは主にクローラとして使われることが多く、人間の何倍もの速さでWebページを自動的に集め、その内容(情報)を分析して分類する。Webサーバには robots.txt というファイルがあり、クローラが従うべき規則が書かれている。 その他にも、人間よりも高速な応答が要求される場面でボットが使われたり(ゲームやオークションなどでのボット利用)、まれに人間の活動をエミュレーションするのに使われたりする(会話ボットなど)。.

新しい!!: クローラとインターネットボット · 続きを見る »

イーフロンティア

株式会社イーフロンティア()は、東京都に本社を持つ、ソフトウェア・ハードウエア・コンテンツサービスを行う企業である。思考ゲーム『AI』シリーズなどの老舗ブランドを傘下に収めるほか、多数のコンピュータグラフィックスや音楽制作等のクリエイティブツール、ユーティリティ、教材、ゲームソフト等の販売元である。.

新しい!!: クローラとイーフロンティア · 続きを見る »

ウェブスクレイピング

ウェブスクレイピング(Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。 ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。.

新しい!!: クローラとウェブスクレイピング · 続きを見る »

スパム (メール)

パム (spam) とは受信者の意向を無視して、無差別かつ大量に一括してばらまかれる、各種ネットメディアにおけるメッセージのこと。 当初は、電子メール(SMSを含む)サービス開始と共に電子メールにおけるスパムが席巻した。近年は各種SNSに同様な迷惑行為もある(#広義のスパム参照)。 「迷惑メール」という語もあるが、その内容が迷惑であろうが、仮に有用であろうが「受信者や媒体の意向を無視して、無差別かつ大量に一括してばらまく」のがスパム行為であって別の語である。 語の由来については、スパム#迷惑行為とスパムを参照。.

新しい!!: クローラとスパム (メール) · 続きを見る »

ソフトウェア

フトウェア(software)は、コンピューター分野でハードウェア(物理的な機械)と対比される用語で、何らかの処理を行うコンピュータ・プログラムや、更には関連する文書などを指す。ソフトウェアは、一般的にはワープロソフトなど特定の作業や業務を目的としたアプリケーションソフトウェア(応用ソフトウェア、アプリ)と、ハードウェアの管理や基本的な処理をアプリケーションソフトウェアやユーザーに提供するオペレーティングシステム (OS) などのシステムソフトウェアに分類される。.

新しい!!: クローラとソフトウェア · 続きを見る »

Baiduspider

Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット(クローラ)。 過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることから、アクセス拒否を行うサイトも見られた。 これに対し、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪するとともにクローリングの頻度管理を統一するなどの対処策を発表している。また同年5月には負荷の少ない新型クローラーを投入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している。 Robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止することができるとされているが、実際にはRobots.txtを無視してアクセスを続ける例が報告されている。またUAの詐称も報告されている。.htaccessで対処しても、大量のエラーメッセージを残すので、サーバーの負担になる。 Baiduspiderの他に、画像検索のBaiduImagespiderや携帯検索のBaiduMobaiderもあり、これらも遮断する必要がある。.

新しい!!: クローラとBaiduspider · 続きを見る »

Bing

Bing(ビング)は、Microsoftが提供する検索エンジンである。「意思決定エンジン」というコンセプトを掲げ、他の検索エンジンとの差別化を図っている。 旧名称はMSN サーチ、Windows Live サーチ、Live サーチがあり、Windows Live サーチは、Windows Liveサービスの一つでもあった。.

新しい!!: クローラとBing · 続きを見る »

統計

統計(とうけい、)は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことである。統計の性質を調べる学問は統計学である。.

新しい!!: クローラと統計 · 続きを見る »

百度

度(バイドゥ、)とは、中華人民共和国で最大の検索エンジンを提供する企業である。創業は2000年1月で本社は北京市にあり、その他「百度百科」、「百度入力方法」なども提供している。 全世界の検索エンジン市場において、Googleに次いで第2位(米comScore社、2009年8月調べ)、中国国内では、穀歌(Google検索)を押さえて最大のシェアを占める。.

新しい!!: クローラと百度 · 続きを見る »

電子メール

電子メール(でんしメール、英: Electronic mail、E-mail、Eメール)は、コンピュータネットワークを使用して、郵便のように情報等を交換する手段である。電子郵便(でんしゆうびん)とも言う。.

新しい!!: クローラと電子メール · 続きを見る »

GNU Wget

GNU Wget(あるいは単に Wget)はウェブサーバからコンテンツを取得するダウンローダであり、GNUプロジェクトの一部である。その名称はワールド・ワイド・ウェブ(WWW)とプログラムの主要な機能であるデータ取得を意味する英語の「get(ゲット)」から派生したものである。現在Wgetはウェブ閲覧のために用いられるTCP/IPに基づいたもっともポピュラーなプロトコルである、HTTP、HTTPS及びFTP によるダウンロードが利用可能である。 Wgetの特徴としては、再帰的ダウンロード、ローカルに取得したHTMLをオフラインで閲覧するためのリンクの変換、プロキシのサポートその他数多くの機能を挙げることができる。Wgetは1996年に、ウェブの人気の急拡大と軌を一にして登場した。その結果多くのUNIXユーザーに用いられるようになり、ほとんどの主要なLinuxディストリビューションとともに配布されるようになった。移植性の高いC言語によって書かれているため、WgetはいずれのUnix系システムにも容易にインストールできる。またmacOS、Windows、OpenVMS及びAmigaOSを含む多くの環境に移植されている。 WgetはGNOMEデスクトップにおけるGWgetやKDEデスクトップにおけるKGetのようなGUIプログラムの基礎として用いられている。Wgetはフリーソフトウェアである。.

新しい!!: クローラとGNU Wget · 続きを見る »

Google

Google LLC(グーグル)は、インターネット関連のサービスと製品に特化したアメリカの多国籍テクノロジー企業である。検索エンジン、オンライン広告、クラウドコンピューティング、ソフトウェア、ハードウェア関連の事業がある。.

新しい!!: クローラとGoogle · 続きを見る »

Googlebot

Googlebot(グーグルボット)は、Googleが採用しているクローラ(Webロボット)ソフトウェアである。.

新しい!!: クローラとGooglebot · 続きを見る »

HyperText Markup Language

HyperText Markup Language(ハイパーテキスト マークアップ ランゲージ、HTML(エイチティーエムエル))は、ハイパーテキストを記述するためのマークアップ言語の1つである。World Wide Web (WWW)において、ウェブページ(1990年代後半頃からはコンテンツという語も利用されている。「中身」という意味の語であり、大層な意味は無い)を表現するために用いられる。ハイパーリンクや画像等のマルチメディアを埋め込むハイパーテキストとしての機能、見出しや段落といったドキュメントの抽象構造、フォントや文字色の指定などの見た目の指定、などといった機能がある。 2012年7月以降、WHATWG により仕様が作られ、それを元に W3C により勧告が行われるという流れになっている。W3C は、XML ベースの規格である XHTML の勧告も行っている。.

新しい!!: クローラとHyperText Markup Language · 続きを見る »

Robots Exclusion Standard

Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト全体またはその一部を走査することを防ぐ規約である。ロボット排除規約、robots.txt プロトコルとも呼ばれる。こういったボットは検索エンジンがウェブサイトの内容を分類しアーカイブするために主に使ったり、ウェブマスターがソースコードを校正するために使ったりする。直接の関係はないが、逆にボットを案内する目的のSitemapsと組み合わせて使うこともできる。.

新しい!!: クローラとRobots Exclusion Standard · 続きを見る »

World Wide Web

World Wide Web(ワールド・ワイド・ウェブ、略名:WWW)とは、インターネット上で提供されるハイパーテキストシステム。Web、ウェブ、W3(ダブリュー スリー)とも呼ばれる。俗には「インターネット」という表現がワールド・ワイド・ウェブを指す場合もある。.

新しい!!: クローラとWorld Wide Web · 続きを見る »

Yahoo!

Yahoo! Inc.(ヤフー)は、アメリカ合衆国のインターネット関連サービスの提供を行っていた企業の草分けの1つであり、検索エンジンをはじめとしたポータルサイトの運営企業であった。「Y!」と略されるときがあった。.

新しい!!: クローラとYahoo! · 続きを見る »

Yetibot

YetiBot(イエティボット)は、韓国の検索ポータルサイト「NAVER」が使用しているクローラの名称である。.

新しい!!: クローラとYetibot · 続きを見る »

検索エンジン

検索エンジン(けんさくエンジン、)は、狭義にはインターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど)を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。 狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。広義の検索エンジンとしては、ある特定のウェブサイト内に登録されているテキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。 検索エンジンは、検索窓と呼ばれるボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。.

新しい!!: クローラと検索エンジン · 続きを見る »

検索エンジンスパム

検索エンジンスパム(けんさくエンジンスパム、英:spamdexing)とは、Google検索やYahoo! 検索等の検索エンジンで自身のウェブサイトが検索結果の上位に表示させるように、何らかの仕掛けをすること、および施されたウェブページをいう。こと検索エンジンから所定サイトへ、不適切に誘導されたケースにおいてこのように表現される。 なお、ランチョンミートのスパム(SPAM)ではなく、迷惑メールのスパム(spam)である(大文字小文字に注意)。.

新しい!!: クローラと検索エンジンスパム · 続きを見る »

ここにリダイレクトされます:

クローラークロウラクロウラー

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »