« 10,000 hit!(3):カウンターをまわすには | Main | 10,000 hit!(5):検索エンジンの活用法 »

2005.01.21

10,000 hit!(4):検索エンジンの境界と"情報"

【検索エンジンの境界とレファレンス】
 別件で気づいたことだが、検索エンジンにクロールをしないでくれっていうrobots.txtが入っているサイトはけっこうある。
 だから、自分がリンクを辿って知ったサイトでも検索エンジンにひっかかってこない、だけど内容が充実しているサイトというのは多い。結果として、それら実のあるサイトよりも自分のブログが上位にきてしまうという、なんだかわからないことになる一因になってはいるだろう。
 robots.txtは検索エンジンのせいではない。せいではないんだけれど、検索エンジンが検索対象としている/検索対象としない集合のはっきりした境界のひとつではある。利用する側が勝手に信奉しないように、道具は道具として性質を了解して使わないと。
 逆に、自分が意識しているように、ある主題について書いたとき、参照先をまとめておく(リンクを張る)ということは大事だと思った。ほかの人がそのリンクをその主題を調べるために使えるからね。

 リンクによって初めて、機械で引っかからないサイトへの道が残されることもある。
 そういう、「ある観点から人間が有用であると判断した」主題毎の「リンク集」=「リンクの集まり」こそが、まさに「referすること=レファレンス」情報源だと思う。そこに人間の関与の余地、創造性やオリジナリティが見出せないか。

【機械検索と"情報"】
 図書館のOPACの意味は、本来はその資料は所蔵しているぞという「蔵書目録」の意味しかない。
 しかし、どのような蔵書構成方針の許に集められた集合であるかという「人間の判断」がわかれば、「目録」以上の「書誌」としての意味がある。機械が機械的に「判断」もなく検索してくるという動作は、本当の「"情報"検索」」ではない。
 また、OPACのレコード単位で見ると、目録規則で記述している個々の書誌事項は、目録規則あっての情報でしかないので、その限りでは標準的だが、書誌の採録項目として必ずしも普遍性はない。書誌は作成する観点によって必要となる採録項目は変わってくるので、情報としての有用性は一般的に保証されないということだ。
 なぜなら―この項、最初の一文に戻る―、Web-OPACが言っているのは、「その図書館で標準的な記述がされた書誌事項で、ある検索の結果として所蔵が確認されるよ」という「情報」しか与えないのだから。

 これらのことを忘れた図書館員がいるのだとすれば、おそろしい。情報化だ、電子図書館だと言っている昨今、実際に増えている気がする。
 "情報"って何なのさ。なんでもかんでも集めてくればいいってもんじゃないんだぜ。そこで有用性の判断が必要なんだから。それが図書館に人的資源を投入する理由だろう。その正当化論拠が、意識されていない。

 このことは、11.14の記事とその後続の11.15の記事で言いたかったことに関係しています。

【05.1.25訂正】下記いただいたコメントにより、訂正を入れました。

|

« 10,000 hit!(3):カウンターをまわすには | Main | 10,000 hit!(5):検索エンジンの活用法 »

「ウェブログ・ココログ関連」カテゴリの記事

「パソコン・インターネット」カテゴリの記事

「図書館」カテゴリの記事

Comments

"robot.txt" は、正しくは "robots.txt" です。あまりに間違われているので、ロボットを作る側も間違っていることがあり、(-_-;;
それを考えると『両方作っておく』のが確実な対策ですが。

検索サイトでの表示順については私も気になって調べたのですが、たくさんリンクされているページほど上位に表示される傾向があり、この「たくさんリンクされている」が、ローカルなリンクでも有効なことから、ブログはその仕組み上、必然的に上位に表示される確率が高くなります。
逆に、フレーム形式など、サイト内リンクが少ない形で構築していると、確率が落ちるのではないかと推測しています。

Posted by: りんどう | 2005.01.24 at 20:06

 robot.txtが誤りとのご指摘、ありがとうございました。本記事の方、さっそく訂正しておきます。かつてアシモフをお勧めいただいた(と記憶しております)りんどうさんにこのことばで突っ込まれると頭が上がりませーん。

>たくさんリンクされているページほど上位に表示される傾向があ
>り、この「たくさんリンクされている」が、ローカルなリンクで
>も有効なことから、ブログはその仕組み上、必然的に上位に表示
>される確率が高くなります。

 これは知っています。
 でも、ブログしかやってない人間にとっては困っちゃうっていうか、回避しようがない。クロールされて困るわけじゃないんですが、ランクのされかたが問題ってことかな。
 前記事で書いたように、検索エンジンの信頼性がた落ちじゃないの?ってことにもなりますよね。なりませんかね。

 「偏差値 慶應」「偏差値 新潟」とかで検索して来られる方、少なくないんです。
 わがブログで偏差値という言葉が出てくる記事は、10.23にあります。記事としてはばかばかしいくらい短いものなんです。なのに、サイドバーの慶應と新潟でヒットして、お客さん来ちゃう。申しわけなくってね。
 もっとすごいのが次回の記事の事例でして。googleのトップに来ちゃいますよ。

Posted by: roe | 2005.01.24 at 22:17

ブログが不適切に検索されてしまうのは、検索エンジンにとっても、普通のブログ運営者にとってもデメリットなので、対策は2方向から考えられますよね。

1) 検索エンジン側
サイト内部のリンクと外部からのリンクを見分け、外部からのリンクの重み付けを高くする。
レンタルサーバの形式等は様々なので、"内部" と "外部" の判断が多分難しいんでしょうが、『ディレクトリ関係が遠いほど重要とする』あるいはいっそ、『同じサーバ上でなければ外部』とかって割り切って良いんじゃないかと私は思ってます。
で、私が思いつくくらいだから、多分対策はそのうちされるでしょう、と思います。

2) ブログユーザ側
各個別記事に、タイトルとカテゴリだけでなく、任意のキーワードを指定でき、それがhtmlヘッダのmetaタグ等に反映されるような仕組みが今のところ有用なのでは、と思います。
私が使ってるNucleusには、NP_MetaTags
http://blog.cles.jp/item/584/catid/31#c168
というプラグインがあるので、ウチで外道を釣っちゃう人が増えたら、対策をうとうかと思ってます。それとも記事数の少ない今のうちに始めておくべきかな?

Posted by: りんどう | 2005.01.26 at 20:01

 ああ、りんどうさん。もう技術者の話になってきたじゃないよ(笑)。ついていけないよう。

 1)はわかるような気がします。だって自動巡回・保存ソフトが巡回するときにそのサイトの中と内が判別できるんだから、そのくらいはできないはずないような。そんな簡単な話じゃないのかな?でも、早く手を打ってくれ〜。

 2)は、ココログのユーザなんかはどうしようもないでしょうね。metaタグだって、僕はソース見たことがある程度なんですよ。その手軽さが売りなんで。
 それと、検索エンジンはフルテキストに検索をかけるから、お客さんがとにかく見てみて解釈する余地、意味があるんじゃないの?サイト管理者側がキーワード指定してそれ以外を排除しちゃったら、逆に意味ないんじゃ…。おっしゃってること、理解できてなさそうだなあ。

Posted by: roe | 2005.01.26 at 23:36

わはは、すんません。ケムに巻くつもりはなかったんですけど。

1)の技術論はさておき、2)について補足しておきます。
もちろんフルテキストに検索することが前提です。その上で、現在「タイトル」や「Hnタグ」に使われている単語が重み付けられているように、『キーワード』の単語にも重み付けしてくれないかなぁ、ということが言いたかったのです。
自主開発されてるブログツールの中で試行錯誤され、何らかの方式が優位になれば、ココログみたいなブログサービスでも対応しはじめるんじゃないでしょうかね。

Posted by: りんどう | 2005.01.27 at 14:00

 なるほど。重みづけをされているフィールドがあるんですね、やっぱり。
 ウチのブログ全体のタイトルが影響を及ぼしているところもあるような気はしていたんだ…。
 重みづけのひとつに、ユーザが付ける「キーワード」も、か。それは解決策のひとつにはなるかもしれませんね。
 ただまあ、シソーラスの問題ってのはまた大変な気がするですよ。キーワードの統制をとるだけでもけっこう大変だから。今でもやってそうなんだけど、検索エンジン側で自動的に関連語彙を選ぶための関連付けも大変そうだし。
 ここのブログの11.27の記事もご覧ください。

Posted by: roe | 2005.01.27 at 14:28

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/50734/2612143

Listed below are links to weblogs that reference 10,000 hit!(4):検索エンジンの境界と"情報":

« 10,000 hit!(3):カウンターをまわすには | Main | 10,000 hit!(5):検索エンジンの活用法 »