検索エンジンについて研究しているが、検索エンジンのノイズをどう定義するべきか困っている。簡単に言うと「検索結果のうち、検索者が求める結果ではなかったもの」なのだが、そもそも「検索者の求める結果」をどう定義するかを考えないといけない。同じ「バラ」という検索語を入力した人はバラを通販したいのか、バラの種類について知りたかったのか、バラの花言葉について知りたかったのかよく分からない。
ここでは検索結果のノイズと、それに多く含まれる無内容コンテンツについて思うところを書きたい。
検索ノイズとは何か
今のところ実験では「サイトの文脈の中で検索語に言及していないもの」をノイズとして扱っている。「てこの原理」について検索したとき、物理学的にてこの原理について説明したものはもちろん求める結果と見なせる。ところどころ検索結果に混じっている、ビジネス場面での「てこの原理」は本来のてこの原理とは違うがこれもOKとする。つまり、意味合いが違っても「てこの原理」という言葉について説明、言及しているサイトは全部OKとする。ただし、言及していなくても単に「てこの原理」というサイト名もOKとする。
一方、辞書単語一覧のように言葉を羅列していて、その中にたまたま「てこの原理」が含まれていたものはNGとする。本文に「てこの原理」とだけ書かれておりあとは空白のページもNG。タイトルに「てこの原理」とあるが内容で触れられていないものもNG。ただし、てこの原理には言及していなくても似たような物理学的な話や、類語が多数含まれているなどの場合があるがこれらはケースバイケースでいいだろう。
ここまで決めて、ちょっと困ったことに気がついた。リンク集の存在はどうするのか。
サイト名が「てこの原理」というところを紹介しているリンク集はOKとしよう。あるサイトで物理学の原理や法則について説明しており、いくつかのページに飛ぶための扉ページとして「てこの原理」というリンクがある場合はもちろんOKだ。内容ではてこの原理に触れていないが「てこの原理は次のページ」というリンクがある場合もまあOKとしよう。
問題は、「てこの原理 でGoogle検索」「てこの原理 をAmazonで探す」などといったリンクだ。
自動生成コンテンツはノイズか
ブログやWikiといったCMS類(自動的にページの体裁なんかを整えてくれるシステム)が増えたことで、すべての文章を人間が作らなくてもよくなった。「~をAmazonで探す」はそういった自動生成なものの一つだ。とりあえず入れておけばボリュームも増えるし有用かもしれない。人間様が書かなくても勝手にシステムが作ってくれるし便利だ。しかし、そのページにそのリンクが存在する必然はない。
これをノイズとして判断するかどうかでかなり迷った。もちろん、検索して訪れた人はほとんどがノイズだと判断するだろう。そのページを開いたところでその単語について得るものなど何もないからだ。実際にそのリンクをクリックする人はいるかもしれないが、有用なリンクなのか検索結果を攪乱するリンクなのかどっちだ、と聞かれれば当然ながら後者に当たるだろう。アメリカで問題になっているスプログのようなものだ。
しかし、人間の意図を離れた自動生成コンテンツのすべてが有用でないと断定することはできない。自動生成かどうかは見ただけでは分からないことも多く、実際に有用だと検索者が判断したコンテンツ部分が自動生成でない、とは確信できないからだ。Google Adsenseだって自動生成とは思えないほど的確なことがよくある(ただしAdsenseは検索結果には反映されない)。「~をAmazonで探す」リンクの登場で「自動生成リンク=スパム」というイメージを持っている人は多いかもしれないが、調査にあたってそれがどのあたりまでノイズであるか線引きすることは難しい。
個人的な直感としてのノイズ
最近よくヒットする自動生成のノイズには次のようなものがある。
過去にはランキングサイトやアダルトサイトなどが多数ノイズとして出てきたものだが、最近は改善しているようだ。ほかにも場合によっては2ちゃんねるやAmazon.co.jpもノイズになることがある(実際には有用なことの方が多い)。個人的には上にリストしたこの2つは検索結果に含まれないようにして欲しいのだが、現実にはそうなっていない。
Bulkfeedsにはよくお世話になっているが、Googleの検索結果にも顔を出してくるのはいただけない。XOOPSの自動コンテンツ収集は本当に勘弁して欲しい。クリックしてから「しまった」と思うことが多いので、せめてタイトルにXOOPSであることを明記して欲しい。特に「増殖Web」は自己増殖するだけ悪質で、日本版「スプログ」と言えるかもしれない。
いずれにせよ困るのは無内容であることだ。人間の書いた本文をサポートするような脇役ではなく、はじめから自動生成された内容が「主」としてページを丸ごと埋め尽くしている。ものすごく高度な人工知能が出てくれば状況は変わるのかもしれないが、現状ではまだ完全自動生成されたページに意味があるとは思えない。
たとえばブログペットこうさぎだけが書いたブログに誰が情報を求めると言うのだろうか。たとえば誰かのブログの、本文に1文字も書かれていないエントリのAdsenseにどんな有用な広告が表示されるというのだろうか。これらは共に、人間の書いた内容なしには意味をなさない。
まとめ
- 検索ノイズの定義についてはまだまだ考えないといけない。
- 増殖Web(や、XOOPSの一部機能)は無内容である以上、各検索エンジンは早めにスパム認定して欲しい。アイデアは素晴らしいかもしれないが、検索エンジンスパムと同じことをしているのなら検索結果に反映するべきでない。
- 人間が目的と意図を持って作り、内容を注いだ情報にこそ価値がある。自動収集、自己増殖した情報には価値はない。
Your tract is real really precocious writers, put up neat mechanism.