goo住宅・不動産のメニューへジャンプ本文へジャンプ
gooトップ
ヘルプ

使い方、よくある質問、新着情報など

  • gooトップ
  •  | サイトマップ
  •  | ヘルプ
を検索

goo ヘルプ

ここからメニューです
  • ヘルプトップ | 
  • サイトマップ | 
  • よくある質問/お問い合わせ | 
  • ソフトウェア | 
  • プレスリリース
  • ヘルプ
  • >
  • Web crawler


メニュー
目的別メニュー
├検索する
├ニュースを読む
├ショッピングに役立つ
├お出かけに役立つ
├エンタメコンテンツを楽しむ
├エンタメ情報を見る
├毎日の暮らしを豊かにする
├人生のステージに役立つ
├ネットを活用するツール
├ソフトウェア
├勉強に役立つ
├仕事に役立つ/法人向け
└携帯電話向けサービス
ポリシー 免責等
  • 会社概要
  • 広告掲載について
  • パートナー企業
  • gooからのお知らせ
  • プライバシーポリシー(個人情報保護方針)
  • 履歴情報の利用等について
  • 個人情報の取り扱いについて
  • 免責事項

Web crawler


[goo ヘルプ] 2006/8/19

Web crawler 'ichiro'
Web crawler is one of system components required to operate Web search service. It collects huge amount of Web pages on the internet by accessing each Web server. 'goo' has Web crawler 'ichiro' that is operated by NTT Resonant Inc. Web pages collected by ichiro are made retrievable on thefollowing services.

(a) Multi-Media Search: http://bsearch.goo.ne.jp
(b) Multi-Media Search for Mobile: http://mobile.mmm.nttr.co.jp/
(c) Mobile Search: http://mobile.goo.ne.jp/

- (a) and (b) have multi media index, so ichiro collects image, movie, and audio files as well as HTML pages. Besides, some of collected pages are used for R&D purpose.

ichiro's crawling policy
To prevent an excess load on Web servers, ichiro follows the rules below.

1) Obey 'robots.txt' on Web servers
'robots.txt' is a text file that can be placed at 'http://.../robot.txt' to limit crawlers' access to the server. ichiro read 'robot.txt' and follow "User-agent:", "Disallow:" and "Allow:" in the file.
How to make 'robot.txt'? -> http://www.robotstxt.org/wc/exclusion.html#robotstxt

2) Obey META TAG in Web pages
Some META TAGs are written on Web pages for the purpose of collection limitation on a per page basis. Ichiro reads and follow tags - "NOFOLLOW", "NOARCHIVE", "NOIMAGEINDEX", "NONE", "FOLLOW", "INDEX", "ALL", "NOSERVE", "SERVE", "ARCHIVE", and "NOIMAGECLICK"
How to write META TAG? -> http://www.robotstxt.org/wc/exclusion.html#meta

3) Fetch one page at a time

From each Web server, ichiro collects only one page at a time. This is also true in the case of virtual domain - a single Web server has multiple domain names (A, B). ichiro doesn't access A and B at the same time.

4) Proper interval time between accesses
Ichiro accesses to any single server at long enough intervals. Especially after collecting a large file such as AVI, much longer interval are taken, but the actual time can be arranged occasionally.

If you have other inquiry about ichiro, please contact our help desk.
We'd appreciate it if you could put '[ichiro]' on e-mail Subject so that we can reply quickly.
Japanese

goo ヘルプ
ヘルプ 基本情報
  • 携帯検索クローラについて  (2010/6/15)
  • プライバシーポリシー  (2010/4/13)
  • 履歴情報の利用などについて  (2010/3/4)
  • Webクローラについて  (2009/1/28)
  • 個人情報の取扱いについて  (2008/12/15)
もっと読む>>
関連リンク
  • gooヘルプ
  • モバイルgoo 携帯検索クローラについて
  • gooトップ
  •  | サイトマップ
  •  | 広告掲載
  •  | 免責事項
  •  | プライバシーポリシー
  •  | ヘルプ
  • gooトップ
  • Copyright:(C) 2010 NTT Resonant Inc. All Rights Reserved.