概要導入Zend_Search_Lucene は、完全に PHP 5 で書かれている汎用的なテキスト検索エンジンです。 インデックスをファイルシステム上に保存するためデータベースサーバを必要とせず、 たいていの PHP ウェブサイト上で動作させることができます。 Zend_Search_Lucene は、以下の機能をサポートしています。
Document および Field オブジェクトZend_Search_Lucene は、ドキュメント単位でインデックスを作成します。 ドキュメントは名前つきのフィールドから構成され、 検索対象のコンテンツがフィールドの中に含まれます。 ドキュメントを表すのが Zend_Search_Lucene_Document オブジェクトです。このオブジェクトの中には、フィールドを表す Zend_Search_Lucene_Field オブジェクトが含まれます。 あらゆる種類の情報がインデックス化される可能性があることに注意しましょう。 アプリケーション固有の情報やメタデータをドキュメントのフィールドに格納し、 検索結果のドキュメントとして後で取得できます。 インデクサを制御するのは、あなたが作成するアプリケーションの役割です。 ということは、あなたのアプリケーションからアクセス可能な、 あらゆる内容のデータがインデックス化される可能性があるということです。 例えばファイルシステム、データベース、HTML フォームなどが考えられます。 Zend_Search_Lucene_Field クラスには、 さまざまな性質のフィールドを作成するための静的メソッドが定義されています。
これらの各メソッド ( Zend_Search_Lucene_Field::Binary()
メソッドを除く) は、オプションのパラメータ
エンコーディングはドキュメントによって異なるでしょうし、 同一ドキュメント内でもフィールドによって異なることもあるでしょう。
エンコーディングパラメータを省略した場合は、 現在のロケールが処理時に使用されます。たとえば次のようになります。
フィールドをインデックス化したり返したりする際には、 常に UTF-8 エンコーディングとなります。UTF-8 への変換は自動的に行われます。 テキスト解析器 (以下を参照ください) は、テキストをその他のエンコーディングに変換したりもします。 実際、デフォルトの解析器はテキストを 'ASCII//TRANSLIT' エンコーディングに変換します。 ここで注意が必要なのは、このような変換は現在のロケールに依存して行われるということです。 フィールドの名前は addField() メソッドで自由につけることができます。 Java Lucene は、検索の際にデフォルトで使用されるフィールド名として "contents" を使用します。 Zend_Search_Lucene は、デフォルトではすべてのフィールドを検索します。 しかし、この挙動を変更することもできます。詳細は "デフォルトの検索フィールド" の章を参照ください。 フィールド型について理解する
HTML ドキュメントZend_Search_Lucene には HTML をパースする機能もあります。 次のようにして、HTML ファイルや文字列からドキュメントを直接作成できます。 Zend_Search_Lucene_Document_Html クラスは、 DOMDocument::loadHTML() および DOMDocument::loadHTMLFile() メソッドを用いてソース HTML をパースしています。つまり、対象となる HTML は整形式である必要はなく、 また XHTML である必要もありません。一方、ヘッダの "meta http-equiv" タグで、エンコーディングをきちんと設定しておく必要があります。 Zend_Search_Lucene_Document_Html クラスは、 ドキュメントのタイトル、本文そしてヘッダの meta タグの内容を認識します。 'title' フィールドには /html/head/title の値が入ります。 これはインデックスないにトークン化して保存され、検索の対象となります。 'body' フィールドには body の中身が入ります。 スクリプトやコメント、そしてタグの属性は含まれません。 Zend_Search_Lucene_Document_Html クラスの loadHTML() および loadHTMLFile() メソッドには、 オプションの二番目の引数もあります。これを TRUE に設定すると、 body の中身もインデックスに格納され、インデックスから取得できるようになります。 body はトークン化とインデックス化だけが行われ、デフォルトでは保存されません。 loadHTML() メソッドおよび loadHTMLFile() メソッドの三番目のパラメータはオプションで、元の HTML ドキュメントのエンコーディングを指定します。 省略した場合は、Content-type HTTP-EQUIV meta タグを使用します。 ドキュメントヘッダの meta タグの内容をもとに、追加のフィールドを作成します。 フィールドの名前は 'name' 属性から取得します。そして 'content' 属性の内容がその値となります。これはトークン化、インデックス化した上で 保存されます。つまり、ドキュメントは meta タグの内容をもとにして (たとえばキーワードによって) 検索できるようになるわけです。 パースされたドキュメントに、ユーザが別のフィールドを拡張できます。
作成されたドキュメントにはリンクは含まれません。しかし、 Zend_Search_Lucene_Document_Html::getLinks() および Zend_Search_Lucene_Document_Html::getHeaderLinks() メソッドでリンクを取得することもできます。
Zend Framework 1.6 以降では、 Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks() メソッドは、この "nofollow リンクを除外する" フラグの現在の状態を返します。 Word 2007 ドキュメントZend_Search_Lucene には Word 2007 のパース機能があります。Word 2007 ファイルから直接ドキュメントを作成できます。
Zend_Search_Lucene_Document_Docx クラスは、 Zend_Search_Lucene_Document_Docx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。 'filename' フィールドは、実際の Word 2007 ファイルのファイル名です。 'title' フィールドは、実際のドキュメントのタイトルです。 'subject' フィールドは、実際のドキュメントの表題です。 'creator' フィールドは、実際のドキュメントの作成者です。 'keywords' フィールドは、実際のドキュメントのキーワードです。 'description' フィールドは、実際のドキュメントの説明です。 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。 'revision' フィールドは、実際のドキュメントのリビジョン番号です。 'modified' フィールドは、実際のドキュメントの最終更新日時です。 'created' フィールドは、実際のドキュメントの作成日時です。 'body' フィールドは、Word 2007 ドキュメントの実際の本文です。ここに含まれるのは通常のテキストのみで、コメントやリビジョンは含まれません。 Zend_Search_Lucene_Document_Docx クラスの loadDocxFile() メソッドにもオプションの 2 番目の引数があります。これを TRUE に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。 パースしたドキュメントに、プログラマが任意のフィールドを追加できます。
Powerpoint 2007 ドキュメントZend_Search_Lucene には Powerpoint 2007 のパース機能があります。Powerpoint 2007 ファイルから直接ドキュメントを作成できます。
Zend_Search_Lucene_Document_Pptx クラスは、 Zend_Search_Lucene_Document_Pptx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。 'filename' フィールドは、実際の Powerpoint 2007 ファイルのファイル名です。 'title' フィールドは、実際のドキュメントのタイトルです。 'subject' フィールドは、実際のドキュメントの表題です。 'creator' フィールドは、実際のドキュメントの作成者です。 'keywords' フィールドは、実際のドキュメントのキーワードです。 'description' フィールドは、実際のドキュメントの説明です。 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。 'revision' フィールドは、実際のドキュメントのリビジョン番号です。 'modified' フィールドは、実際のドキュメントの最終更新日時です。 'created' フィールドは、実際のドキュメントの作成日時です。 'body' フィールドは、Powerpoint 2007 ドキュメントのすべてのスライドとノートの実際の本文です。 Zend_Search_Lucene_Document_Pptx クラスの loadPptxFile() メソッドにもオプションの 2 番目の引数があります。これを TRUE に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。 パースしたドキュメントに、プログラマが任意のフィールドを追加できます。
Excel 2007 ドキュメントZend_Search_Lucene には Excel 2007 のパース機能があります。Excel 2007 ファイルから直接ドキュメントを作成できます。
Zend_Search_Lucene_Document_Xlsx クラスは、 Zend_Search_Lucene_Document_Xlsx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。 'filename' フィールドは、実際の Excel 2007 ファイルのファイル名です。 'title' フィールドは、実際のドキュメントのタイトルです。 'subject' フィールドは、実際のドキュメントの表題です。 'creator' フィールドは、実際のドキュメントの作成者です。 'keywords' フィールドは、実際のドキュメントのキーワードです。 'description' フィールドは、実際のドキュメントの説明です。 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。 'revision' フィールドは、実際のドキュメントのリビジョン番号です。 'modified' フィールドは、実際のドキュメントの最終更新日時です。 'created' フィールドは、実際のドキュメントの作成日時です。 'body' フィールドは、Excel 2007 ドキュメントのすべてのワークシートのすべてのセルの実際の内容です。 Zend_Search_Lucene_Document_Xlsx クラスの loadXlsxFile() メソッドにもオプションの 2 番目の引数があります。これを TRUE に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。 パースしたドキュメントに、プログラマが任意のフィールドを追加できます。
|