カテゴリー: テクノロジー

【Solr】検索結果のグループ化(Collapse and Expand)

以前、グループ検索の手段として Result Grouping を紹介しました。
もう一つの手段として Collapse and Expand があります。 Collapse を辞書で引くと「つぶれる」とか「崩れる」とか出てきて少しイメージのしにくい言葉ですが、たとえばファイルビューアで言うと

↓これが Collapse している状態

↓これが Expand している状態

と捉えると分かりやすいかと思います。

Solr における検索結果の Collapse とは特定のフィールドの値に基づいて検索結果をグループ分けし、各グループの代表ドキュメントを出力することであり、Expand とは Collapse で作られた各グループに属するドキュメントを選択して出力することです。

Collapsing は CollapsingQParser で実装されており、フィルタクエリで指定します。以下は大阪の施設情報を施設タイプ(typeフィールド)でグルーピングするクエリ例です。

$ curl http://localhost:8983/solr/osaka_shisetsu/select -d 'q=*:*&rows=3&omitHeader=true&fq={!collapse field=type}'
{
  "response":{"numFound":13,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"10",
        "type":"官公庁",
        "area":"住之江区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":["住之江区南港東3-4-62"],
        "address_p":"34.6164938333333,135.438210722222",
        "_version_":1695487381634809856},
      {
        "id":"311",
        "type":"学校・保育所",
        "area":"住之江区",
        "name":"大和幼稚園",
        "address":["大阪市住之江区北島３－３－１１"],
        "address_p":"34.6013536388888,135.478355305555",
        "_version_":1695487381872836611},
      {
        "id":"1356",
        "type":"公園・スポーツ",
        "area":"住之江区",
        "name":"住之江公園プール",
        "address":["住之江区南加賀屋1住之江公園内"],
        "address_p":"34.6118221111111,135.473814305555",
        "_version_":1695487382023831552}]
  }}

各グループ5件ずつのドキュメントが欲しい、といった場合には expand=true を指定します。以下は、typeフィールドでグループ化して、各グループ2件ずつのドキュメントを取得するクエリ例です。

$ curl --user solr:SolrRocks http://localhost:8983/solr/osaka_shisetsu/select -d 'q=*:*&rows=3&omitHeader=true&fq={!collapse field=type}&expand=true&expand.rows=2'
{
  "response":{"numFound":13,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"10",
        "type":"官公庁",
        "area":"住之江区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":["住之江区南港東3-4-62"],
        "address_p":"34.6164938333333,135.438210722222",
        "_version_":1695487381634809856},
      {
        "id":"311",
        "type":"学校・保育所",
        "area":"住之江区",
        "name":"大和幼稚園",
        "address":["大阪市住之江区北島３－３－１１"],
        "address_p":"34.6013536388888,135.478355305555",
        "_version_":1695487381872836611},
      {
        "id":"1356",
        "type":"公園・スポーツ",
        "area":"住之江区",
        "name":"住之江公園プール",
        "address":["住之江区南加賀屋1住之江公園内"],
        "address_p":"34.6118221111111,135.473814305555",
        "_version_":1695487382023831552}]
  },
  "expanded":{
    "公園・スポーツ":{"numFound":1089,"start":0,"numFoundExact":true,"docs":[
        {
          "id":"1357",
          "type":"公園・スポーツ",
          "area":"住之江区",
          "name":"住之江公園野球場",
          "address":["住之江区南加賀屋１住之江公園内"],
          "address_p":"34.6116668611111,135.475586222222",
          "_version_":1695487382023831553},
        {
          "id":"1358",
          "type":"公園・スポーツ",
          "area":"住之江区",
          "name":"住之江公園多目的広場",
          "address":["住之江区南加賀屋1住之江公園内"],
          "address_p":"34.6105608055555,135.475235888888",
          "_version_":1695487382023831554}]
    },
    "学校・保育所":{"numFound":1044,"start":0,"numFoundExact":true,"docs":[
        {
          "id":"312",
          "type":"学校・保育所",
          "area":"住吉区",
          "name":"大阪市立墨江幼稚園",
          "address":["住吉区墨江2丁目3番17号"],
          "address_p":"34.6077390555555,135.496024694444",
          "_version_":1695487381872836612},
        {
          "id":"313",
          "type":"学校・保育所",
          "area":"住之江区",
          "name":"加賀幼稚園",
          "address":["大阪市住之江区中加賀屋４－４－２２"],
          "address_p":"34.6140463611111,135.478756833333",
          "_version_":1695487381872836613}]
    },
    "官公庁":{"numFound":300,"start":0,"numFoundExact":true,"docs":[
        {
          "id":"11",
          "type":"官公庁",
          "area":"住之江区",
          "name":"大阪陸運支局なにわ自動車検査登録事務所",
          "address":["住之江区南港東3-1-14"],
          "address_p":"34.6190439722222,135.442191833333",
          "_version_":1695487381820407808},
        {
          "id":"12",
          "type":"官公庁",
          "area":"住吉区",
          "name":"住吉税務署",
          "address":["住吉区住吉2丁目17番37号"],
          "address_p":"34.6109641111111,135.491388722222",
          "_version_":1695487381821456384}]
    }}}

この結果を使えば、まさに先程ファイルビューアの例で示したような検索結果の表示が実現できることが分かります。

SCSSの@importは廃止の問題！@useへの乗り換えについて

SCSSの@importルールが2022年10月頃に廃止予定のようです。

この@importは別sassファイルを読み込む便利なルールため、色んな所で使っていると思います。

廃止されるため@importの代わりに@useを使う必要があります。

@useはカプセル化されているため使う場合はどのファイルから読み込むか指定する（名前空間をつけて呼び出す）必要があります。

今までのようにファイルを読み込むだけでは変数やmixinなどは使えません。

書き変え方は下記のイメージです。

@import を使った場合

@import "base/variable";
@import "module/mixin";

.item {
  color: $baseFontColor;
  @include border;
}

@use を使った場合

@use "base/variable";
@use "module/mixin";

.item {
  color: variable.$baseFontColor;
  @include mixin.border;
}

おおまかな書き換えのイメージは下記になります。

１．@importを@useに書き換えます。

２．読み込んだファイルの使用したい変数やmixinは [ファイル名].[変数名] のように書きます。

@useを使うメリットの一つとして「２つのファイルを読み込んで、同じ変数名だった場合、それぞれ別の変数として使える」というのもあります。

現状@import を使っているところを書き換えるのはなかなか大変だとおもうのですが、@useを使うメリットも色々あるので少しずつ慣れていければと思っています。

jpsコマンドでSolrプロセスが表示されない

はじめに

あるとき、最近の Solr は jsp でプロセスが表示されないことに気づきました。Solr 5 の頃は表示されていた記憶があります。気になったので原因を調べてみました。

過去のSolrでは表示される

手元にある過去のバージョンの Solr を起動して試してみました。start.jar が Solr のプロセスです。

Solr 5.5.5

$ jps -l
12315 sun.tools.jps.Jps
12077 start.jar

Solr 7.5.0

$ jps -l
12550 start.jar
12668 sun.tools.jps.Jps

Solr 8.1.0

$ jps -l
13052 sun.tools.jps.Jps

Solr 8 あたりでこの変化が起こったようです。

jps で Java プロセスが表示される仕組み

jpsはJavaプロセスが起動するときに作成される /tmp/hsperfdata_USERNAME/PID というファイルの情報を利用して表示されます。たとえば java1 ユーザが起動した PID 13542 のプロセスがあれば /tmp/hsperfdata_java1/13542 というファイルになります。

hsperfdata ファイルは jps に限らず、jstat など Java のツール群で共通して使われるものです。上では /tmp と書きましたが、システムプロパティ java.io.tmpdir で指定される作業ディレクトリ上に作られます。

jps が Java プロセスを見失うのはどういう場合か

java.io.tmpdir が変更された場合

この場合、java プロセスが作る hsperfdata ファイルの場所が jps の想定する場所と異なるために jps からは見つけられなくなります。

hsperfdata ファイルが作成されなくなる起動オプションが指定された場合

そもそも hsperfdata が作られなければ jps からは見つけられません。 hsperfdata ファイル生成を抑制するオプションとして、 -XX:-UsePerfData や -XX:+PerfDisableSharedMem があります。

Solr 起動時の java コマンドの起動オプション

-XX:+PerfDisableSharedMem が指定されていました。

$ ./solr start -V -p 8984
Using Solr root directory: /home/java1/fsw/solr-8.9.0
Using Java: /home/java1/.sdkman/candidates/java/current/bin/java
openjdk version "11.0.6" 2020-01-14
OpenJDK Runtime Environment 18.9 (build 11.0.6+10)
OpenJDK 64-Bit Server VM 18.9 (build 11.0.6+10, mixed mode)

Starting Solr using the following settings:
    JAVA            = /home/java1/.sdkman/candidates/java/current/bin/java
    SOLR_SERVER_DIR = /home/java1/fsw/solr-8.9.0/server
    SOLR_HOME       = /home/java1/fsw/solr-8.9.0/server/solr
    SOLR_HOST       = 
    SOLR_PORT       = 8984
    STOP_PORT       = 7984
    JAVA_MEM_OPTS   = -Xms512m -Xmx512m
    GC_TUNE         = -XX:+UseG1GC -XX:+PerfDisableSharedMem -XX:+ParallelRefProcEnabled -XX:MaxGCPauseMillis=250 -XX:+UseLargePages -XX:+AlwaysPreTouch -XX:+ExplicitGCInvokesConcurrent
    GC_LOG_OPTS     = -Xlog:gc*:file=/home/java1/fsw/solr-8.9.0/server/logs/solr_gc.log:time,uptime:filecount=9,filesize=20M
    SOLR_TIMEZONE   = UTC
    SOLR_OPTS       = -Xss256k


Waiting up to 180 seconds to see Solr running on port 8984 [|]  
Started Solr server on port 8984 (pid=15099). Happy searching!

試しに solr 起動スクリプトで -XX:+PerfDisableSharedMem を指定している箇所をコメントアウトしてみると、起動後に jps で Solr 8.9.0 のプロセスが表示されるようになりました。

SolrとNutchを組み合わせてウェブサイトのインデックスを作成する

はじめに

Apache Nutch はオープンソースのウェブクローラです。Nutch でクロールした結果を Solr でインデックスするという連携が簡単にできるようになっています。

Nutch のインストール

ダウンロード

https://www.apache.org/dyn/closer.cgi/nutch/ から apache-nutch-1.18-bin.tar.gz をダウンロードします。

展開

$ tar zxf apache-nutch-1.18-bin.tar.gz
$ cd apache-nutch-1.18

設定ファイル

設定ファイルは conf/nutch-default.xml と conf/nutch-site.xml です。 nutch-default.xml にはコメントも詳しく書かれているので、読めば設定の意味を理解できます。変更したい箇所だけ nutch-site.xml に記述します。

<configuration>
  <property>
    <name>http.agent.name</name>
    <value>Splout Nutch Spider</value>
  </property>
</configuration>

同一サイトへの連続アクセスの際のディレイは fetcher.server.delay で5秒と設定されているので、今回はこのまま使います。robot.txt の有るサイトではその指示に従うようです。

クローリング対象の設定

urls/seed.txt というファイルに1行1URLでクローリングの起点となるURLを記述します。

mkdir urls
echo https://blog.splout.co.jp/ > urls/seed.txt

ドキュメントに含まれるリンクを次々と辿っていくわけですが、特定のサイト以外のURLはクローリングしないように指示することができます。そのためのファイルが conf/regex-urlfilter.txt です。

今回は blog.splout.co.jp だけを対象としますので、regex-urlfilter.txt の最後の行

+.

を

+^https?://blog\.splout\.co\.jp/

に変更します。

クローリング実行

Nutch にはクローリング実行用のスクリプトも含まれていますが、ここではチュートリアルに従って1ステップずつ実行してみます。

$ bin/nutch inject crawl/crawldb urls
$ bin/nutch generate crawl/crawldb crawl/segments
$ s1=`ls -d crawl/segments/2* | tail -1`
$ echo $s1
crawl/segments/20210925115243
$ bin/nutch fetch $s1
$ bin/nutch updatedb crawl/crawldb $s1

ここまでで1ターン終わりです。

inject (URLの起点をDBに入れる) → generate (セグメント(1回のfetch処理でアクセスされるURLの集合)を作成) → fetch (ウェブコンテンツの取得) → コンテンツデータベースの更新

という流れです。

ここまでで集まったURLを元にして次のターンを実行します。

$ bin/nutch generate crawl/crawldb crawl/segments -topN 100
$ s2=`ls -d crawl/segments/2* | tail -1`
$ bin/nutch fetch $s2
$ bin/nutch parse $s2
$ bin/nutch updatedb crawl/crawldb $s2

スクリプトを使えばこれを自動で回してくれるわけです。

Invertlinks作成

どのページがどこからリンクされているかの情報を作ります。

$ bin/nutch invertlinks crawl/linkdb -dir crawl/segments

Solrセットアップ

configsets/_default をベースにして schema.xml だけ Nutch で用意されているものを使います。

$ tar zxf solr-8.5.1.tgz
$ cd solr-8.5.1
$ mkdir server/solr/configsets/nutch
$ cp -r server/solr/configsets/_default/* server/solr/configsets/nutch/
$ cp ../apache-nutch-1.18/plugins/indexer-solr/schema.xml server/solr/configsets/nutch/conf/
$ rm server/solr/configsets/nutch/conf/managed-schema 
$ bin/solr start
$ bin/solr create -c nutch -d server/solr/configsets/nutch/conf/

Solrインデックス作成

インデックス作成に関する設定は conf/index-writers.xml にあります。Solrに関する設定は以下のとおりです。

  <writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter">
    <parameters>
      <param name="type" value="http"/>
      <param name="url" value="http://localhost:8983/solr/nutch"/>
      <param name="collection" value=""/>
      <param name="weight.field" value=""/>
      <param name="commitSize" value="1000"/>
      <param name="auth" value="false"/>
      <param name="username" value="username"/>
      <param name="password" value="password"/>
    </parameters>
    <mapping>
      <copy>
        <!-- <field source="content" dest="search"/> -->
        <!-- <field source="title" dest="title,search"/> -->
      </copy>
      <rename>
        <field source="metatag.description" dest="description"/>
        <field source="metatag.keywords" dest="keywords"/>
      </rename>
      <remove>
        <field source="segment"/>
      </remove>
    </mapping>
  </writer>

インデックス作成を実行します。

$ bin/nutch index crawl/crawldb/ $s2 -filter -normalize -deleteGone
(略)
Indexing 67/67 documents
Deleting 0 documents
Indexer: number of documents indexed, deleted, or skipped:
Indexer:     67  indexed (add/update)
Indexer: finished at 2021-09-25 15:35:30, elapsed: 00:00:01

オプションの意味は以下の通りです。

filter: 設定済みのURLフィルタを使って不要なURLを弾く
normalize: インデックス前にURLを正規化する
deleteGone: 404になったページや内容が重複するページなどについてはインデックスからの削除のリクエストを出す

検索してみる

“solr”で検索してみます。

$ curl -s 'http://localhost:8983/solr/nutch/select?omitHeader=true&rows=1&q=content:solr'
{
  "response":{"numFound":26,"start":0,"docs":[
      {
        "tstamp":"2021-09-25T05:42:51.082Z",
        "digest":"7268d16a01450b9d925824316fa1a7e4",
        "boost":0.009592353,
        "id":"https://blog.splout.co.jp/12174/",
        "title":"Solrの記事リスト(〜2020年12月) | SPLOUT BLOG",
        "url":"https://blog.splout.co.jp/12174/",
        "content":"Solrの記事リスト(〜2020年12月) | SPLOUT BLOG\nWORKS\nCOMPANY\nRECRUIT\nBLOG\nCONTACT\ntoggle navigation\nWORKS\nCOMPANY\nRECRUIT\nBLOG\nPRIVACY POLICY\nSECURITY POLICY\nCONTACT\nSolrの記事リスト(略)",
        "_version_":1711854563263250432}]
  }}

記事IDとしてURLが使われていることが分かります。管理用のいくつかのフィールドを除くと、記事に関するフィールドは以下の通りです。