[Tep-j-general] Re: Yahoo 検索について (ページのインデックス化)

Back to archive index

hamada bungu****@leo*****
2004年 7月 9日 (金) 11:03:00 JST


こんにちわ。

On Wed, 07 Jul 2004 09:58:23 +0900
TAMURA Toshihiko <tamur****@bitsc*****> wrote:

> YSTについては、データが少ないためにいろんなレベルの情報が流れていますが、
> 事実を把握する必要があるので、情報を共有できればいいと思います。

ということですので、

・自分の知ってる事しか解らない
・大したことは知らない(素人)

当方ですが、とりあえず「現時点でこうじゃないかと思ってる」ことを書き出し
てみます。

> YSTでは現時点でインデックス化されているページが
> 非常に少ないということは事実だと思います。

当方の認識>

1. YST/Inktomiクローラーの襲来頻度はけして低くない
2. YST/Inktomiは同じページを繰り返し読む傾向が強い
3. YST/InktomiはセッションIDリンクを

2004/07/09,04:37:56,66.196.90.198,"lj1182.inktomisearch.com","-",GET,"/catalog/default.php/cPath/187_62","osCsid=d9129b47f25419f5d1e61fc7033c3bca","osCsid=d9129b47f25419f5d1e61fc7033c3bca",200,40001,"-","Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

のように追うことができるが、こうしたパラメータ付リクエストの割合は低い。
MSNの「パラメータ付リクエストが9割以上」という数値に比べ「リンクを追う
能力が低い」と推測される

4. YSTのインデックス化はあまり早くない
5. YSTのインデックスにはとんでもなく古いデータが混じっている

> (Googleでもその制限はあると聞きますが、それよりも制限がきついのかも)

Googleはガイドラインにて「リンク100個くらい」と言ってますが、当方が独
自に実験したところ、

「実際にリンクを追うのは500〜1000の間くらい」

という「印象」です。

これは当方の1実験結果でありなんら根拠のある数字ではありませんし、クロー
ラーの種類、たとえばcrawlとcrawlerの違い(フレッシュクロールかそうでない
か)等も把握できてません。

対するYST/Inktomiは、

「もしかして認識するリンクの数自体はGoogleより多いんじゃないか?」

と思ってます。こっちも「印象」ですけど。

ただ、YST/Inktomiの場合、上記のとおり

「パラメーター付リンクも追うけどその頻度が低い」

のと、クロールして収拾してもインデックス化されない(←ように見えるが、実
際には「なかなかSERPsに出せない」だけの場合もあることを確認済)ことがあ
るので、結果的に「見えない」のかなぁ?とか。

YST/Inktomiには、未だサイト登録のページがないのもイタイです。

全然リンクを追えないInfoseekのクローラーでも、サイト登録で全カテゴリ一覧
&全商品紹介ページのurlを手動登録(実際にはツールを使います:^^;)してや
れば、一応インデックス化されるんですが。

> 一般のosCommerceのサイトで全商品をインデックス化するには、
> (a)→(b1)→(b2)→(c)のリンクをたどってもらう必要がありますが、
> YSTではホップ数の制限があるのかもしれません。

あ、それはアリかもしれませんね。従来そういう考えが無かったのですが、言わ
れてみれば幾つか思い当たるフシが無いでもないです。

またちょっと調べてみます。

> 全体として、YSTのページのインデックス化については、
> 不可解というか、単にハードウェアなどのリソース不足なのかも
> しれませんが、困ったもんですね。

「リソース不足」ってのは同感です。割とボロい検索エンジン→あんまり自分で
使う気にもなれないんですが、最大ポータルのYahooが使ってるからこっちも仕
方なく対応してるって感じです(^_^;)

はまだ






Tep-j-general メーリングリストの案内
Back to archive index