Solr | SPLOUT BLOG

Apache Solr を Eclipse でリモートでデバッグ

はじめに

先日、久しぶりに全文検索エンジン Apache Solr に触れる機会がありました。
現時点の最新版は 7.5 です(この記事を書いている間に 7.6 がリリースされました)。以前に扱ったことのある 5.5 からはかなり色々なところが変わっているようです。

Solr は OSS なので変更点の詳細を追いかけたければソースを読めばいいのですが、Solr くらいの規模のソフトウェアとなるとソースを読むだけでは取っ掛かりが掴みにくいことも有ります。たとえば、この factory オブジェクトが生成したのはどの具象クラスなんだ、とか、この if 文の分岐はどっちが使われるんだ、とか。そういう場合にはデバッガが役に立ちます。
今回は以下のような構成でデバッガを動かすための手順をまとめました。

Solr 7.5 バイナリパッケージ(稼働用)
Solr 7.5 ソースパッケージ(デバッガ参照用)
Eclipse IDE for Java Developers Version 2018-09

Solr のインストール

1. 公式サイトからsolr-7.5.0.tgzをダウンロード。
2. 展開

$ tar zxf solr-7.5.0.tgz
$ cd solr-7.5.0

サンプル設定で起動

$ bin/solr -e cloud
(略)
To begin, how many Solr nodes would you like to run in your local cluster? (specify 1-4 nodes) [2]: 1
(略)
Please enter the port for node1 [8983]:
(略)
Please provide a name for your new collection: [gettingstarted] 
test
(略)
How many shards would you like to split test into? [2]
1
(略)
How many replicas per shard would you like to create? [2] 
1
(略)
Please choose a configuration for the test collection, available options are:
_default or sample_techproducts_configs [_default] 
(略)

Solr を一旦停止しておく
```
$ bin/solr stop -all
```

Solr のソースを Eclipse にインポート

公式サイトからsolr-7.5.0-src.tgzをダウンロード。

展開

$ mkdir solr-src
$ cd solr-src
$ tar zxf solr-7.5.0-src.tgz
$ mv solr-7.5.0 solr-7.5.0-src
$ cd solr-7.5.0-src

Eclipse のプロジェクトとして読み込めるようにビルド
```
$ ant eclipse
```
インポート
1. 「ファイル」→「インポート」→「既存プロジェクトをワークスペースへ」→「次へ」
2. 「ルート・ディレクトリの選択」で solr-src/solr-7.5.0-src を指定→「完了」

デバッグ開始

1. Solr スタート

リモートプロセスのデバッグなので java コマンドのオプションを指定して JDWP を利用します。

$ bin/solr start -c -p 8983 -s example/cloud/node1/solr -a "-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=6900"

suspend=y を指定するとデバッガが接続するまで実行を中断してくれます。ただし180以内に起動が完了しないと Solr が起動失敗と判断して自らプロセス終了してしまうので、それまでに以下の手順でデバッガを接続しなければなりません。

デバッガ起動
1. 「実行」→「デバッグの構成」
2. プロジェクト solr-7.5.0 指定→ポート 6900 指定→「デバッグ」

動作確認

今回は Solr 6 で追加された ExtractingRequestHandler を試してみます。
このハンドラは PDF などのバイナリファイルからテキストを抽出してインデックスを作成するためのものです。solrconfig.xml では以下のように定義されています。


  <requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="fmap.meta">ignored_</str>
      <str name="fmap.content">_text_</str>
    </lst>
  </requestHandler>

RequestHandler のメインの処理は handleRequestBody ですが、これは ExtractingRequestHandler の親クラスである ContentStreamHandlerBase クラスで定義されているので、そちらにブレイクポイントを設定しておきます。

そして　PDF ファイルを post コマンドで送信します。

$ bin/post -c test -params "extractOnly=false&wt=json&indent=true" -out yes example/exampledocs/solr-word.pdf

指定しておいた場所でブレイクされます。

あとは普通にデバッガを使っていくだけです。

たとえば ExtractingDocumentLoader のこの行で変数の内容を確認すると、
実行時パラメータとして extractOnly=false だけを指定した状態では parser として AutoDetectParser、parsingHandler として SolrContentHandler が使われることが分かりました。
metadata としてどんな情報が抽出されるのかも良く分かります。

最後に

Solrのリモートデバッグは簡単です。Solr 内部の理解を深めるのに役立てたいと思います。

PDF をページ単位でインデックスする Solr の RequestHandlerを作成する

はじめに

Solr 6以降では PDF やワードなどのバイナリファイルをインデックスする機能(ExtractingRequstHandler)がサポートされています。
ファイル内に含まれるテキストをまとめて1つの文書として、メタデータ(作成日時、作成者等)と共にインデックスを作成してくれるのでこれはとても便利な機能ではありますが、用途によってはキーワードが何ページ目にヒットするのかを知りたいこともあります。そこで、自前の RequestHandler 作成の練習として PDF をページ単位でインデックスする ReqestHandler を作成してみました。

Apache Tika

Solr では PDF 等の各種フォーマットを扱うために Apache Tika を利用しています。
Tika では PDF 等を XHTML に変換した上で SAX パーサーにコンテンツハンドラを渡して XHML の要素毎の処理を実行させられます。それと同時にファイルに含まれるメタデータが Metadata クラスのオブジェクトに格納されます。
従って、Tika の呼び出し側は

ファイルに含まれる構造化コンテンツが XHTML に変換されたもの
ファイルのメタデータ

を扱うことができます。

Tika によって PDF から変換された XHTML がどんなフォーマットになっているかは、extractOnly=true オプションを指定することで見ることができます。

bin/post -c test -params "extractOnly=true&wt=json&indent=true" -out yes /tmp/test.pdf

XHTML の body 部分だけを抜粋すると以下のようになっています。

<body>
<div class="page">
<p/>
<p>テストドキュメント1ページ目です。</p>
<p/>
</div>
<div class="page">
<p/>
<p>2ページ目の文章です。</p>
<p/>
</div>
<div class="page">
<p/>
<p>これは3ページ目です。</p>
<p/>
</div>
</body>
</html>

ページ毎に

<div class="page">

に囲まれた構造になっていることが分かります。

ExtractingRequestHandler には capture という実行時パラメータがあり、これを指定することで特定の XHTML 要素(この場合div)を個別にインデックスすることができるのですが

文書IDはファイル全体で共通
同じ名前の要素が複数存在する場合は multivalued のフィールドに入れられる

という仕様のためページ番号との紐付けができそうもなかったのが、今回自前で実装してみようと思ったきっかけでした。

SolrがPDFを扱う仕組み

ExtractingRequestHander では以下のクラス構成で PDF 等のインデックス処理を実行しています。

ExtractingRequestHander
リクエストのエントリポイント(/solr/update/extract)。
- 設定の読み込み
- Tika のパーサーが生成する SAX イベントを処理するコンテンツハンドラ(SolrContentHandler)用のファクトリ(SolrContentHandlerFactory)を生成
- ExtractingDocumentLoader を生成して load メソッド(ファイル読み込みとインデックス処理のメイン)を実行
ExtractingDocumentLoader
実際にファイルを読み込んでインデックス処理を実行。
- メタデータ読み込み
- コンテンツの種類に対応したパーサーを生成
- ExtractingRequestHander から与えられたファクトリ(SolrContentHandlerFactory)を使ってコンテンツハンドラ(SolrContentHandler)オブジェクトを生成
- パーサーにコンテンツハンドラ(SolrContentHandler)を与えてパース処理を実行
- 生成されたメタデータオブジェクトとコンテンツ文字列をインデックスに投入
SolrContentHandler
Tika のパーサーが生成する SAX イベントを処理する。
基本的に XHTML に含まれるコンテンツ部分の文字列を結合して1つの大きな文字列を作っている。
SolrContentHandlerFactory
SolrContentHandler のファクトリメソッドを提供する。

ページ単位のインデックス処理を実装

上記の4クラスをそれぞれ継承したクラスを実装しました。(コードはこの記事の最後に)
実装の内容は以下の通りです。

設定の読み込みは親クラスに任せる
具象クラスの生成処理は上書き
SolrContentHandler のサブクラスで
```
<div class="page">
```
を認識してページ番号とページ毎のコンテンツとが対応付けされたテーブルを作成
ExtractingDocumentLoader のサブクラスでページ毎に文書IDを振ってインデックス投入

利用方法

4クラスをコンパイルして Jar ファイルを生成
contrib/extraction/lib に Jar ファイルをコピー

solrconfig.xml の

<requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >

の箇所を jp.co.splout.solr.plugin.MyExtractingRequestHandler に変更

Solr 再起動

実行例

投入

$ bin/post -c test -params "extractOnly=false&wt=json&indent=true&literal.id=testpdf1" -out yes test.pdf

検索結果

最後に

PDF をページ単位でインデックスする Solr のプラグインを作成しました。
PoC ということで最小限の実装しかしていませんが、ちゃんとするなら

せっかくなのでメタデータも有効に使いたい
ExtractingRequestHandler の実行時パラメータで共用できるものは共用したい
もっというなら ExtractingRequestHandler の1機能として統合?

ということも考えたいと思います。