タグ: Solr

Solrのリファレンスガイドをビルドする

Solr のリファレンスガイドは、たとえばバージョン8.7のものは
https://lucene.apache.org/solr/8_7_0/index.html
というURLで閲覧できますが、リリース直後などにおいては最新のバージョンに対応したリファレンスガイドが公開されていないこともあります。
そういった場合を踏まえて、Solr のソースからリファレンスガイドを自前でビルドしてみました。

リファレンスガイドのソースは Solr のソースコードの solr/solr-ref-guide 以下にあります。ビルドに必要な手順が Readme.adoc に書かれています。

リファレンスガイドのソースは Asciidoc 形式で記述されているので、Asciidoc を扱える ruby のツール群をインストールします。

gem install jekyll --force --version 3.5.0
gem install jekyll-asciidoc
gem install slim
gem install tilt
gem install concurrent-ruby

ビルドには ivy が必要なので、まだ使ったことが無ければ準備しておきます。

ant ivy-bootstrap

ビルドします。

cd solr/solr-ref-guide
ant default

生成されたHTMLは solr/build/solr-ref-guide/html-site 以下にあります。

各所に DRAFT の文字列が見られますが、オフィシャルのリファレンスガイドとほぼ同じものをローカルに閲覧できるようになります。

はじめに

ふと気付けばこのブログの Solr の記事が40本を超えていました。Solr タグで検索していただくこともできますが、もう少し見やすくなるようにトピックで分類して記事タイトルとリンクの形でリスト化してみました。

Prometheus連携

PrometheusとGrafanaでSolrの状態を可視化する (2020年10月)
Solrのprometheus-exporterにメトリクスを追加する (2020年11月)
PrometheusとAlertmanagerでSolrの異常を通知する (2020年11月)

パッケージ管理

Solrのパッケージ管理機能 (2020年6月)
Solrのパッケージ管理機能を使って自作プラグインを設定する (2020年7月)
Solrのパッケージ管理機能がクラスタレベルのプラグインに対応しました (2020年10月)

JSON Request API

SolrのJSON Request API (2020年9月)
SolrのJSON Facet API (2020年9月)

Docker

SolrをDockerで動かす (2020年8月)
SolrCloudをDockerで動かす (2020年8月)

日付表現

SolrのDateRangeFieldで日時の範囲を扱う (2020年4月)
【Solr】Date Mathによる日付表現 (2020年5月)
【Solr】Date Mathの仕様をソースコードで確認する (2020年6月)

SolrCloudのリーダー選出

SolrCloudのリーダー選出の仕組み (2020年7月)
SolrCloudのリーダー再選出の動作を確認する (2020年7月)

SolrCloud

【Solr】管理UIのZK Status表示問題がSolr 8.6.1で解決しました (2020年9月)
SolrCloudのエイリアス機能(その1) (2020年3月)
SolrCloudのエイリアス機能(その2) (2020年3月)
Solrのコレクション名に日本語を使えるか (2020年1月)
SolrCloudにおけるインデックスのバックアップ (2019年10月)
SolrCloudにおけるインデックスのリストア (2019年10月)
Solrのドキュメントルーティングで複数階層のシャードキーを指定するとどうなるのか (2019年9月)
[Solr]ドキュメントルーティングのcompositeIdのハッシュを実際に計算してみる (2019年9月)
SolrCloudのシャーディングとドキュメントルーティング(その1) (2019年7月)
SolrCloudのシャーディングとドキュメントルーティング(その2) (2019年7月)
SolrCloud 環境におけるスキーマの読み込みと保存について (2019年7月)

インデックス作成

Solrのフィールド名に日本語を使えるか (2020年1月)
巨大なJSONをSolrに投入する (2019年8月)
Solrで入れ子構造の文書をインデックスする (2019年6月)
Solr の Kuromoji を extended で使うとインデックスサイズが予想以上に小さくなる問題について (2019年4月)
Solrで日本語版Wikipediaのインデックスを作った場合のサイズをTokenizerの設定毎に調べる (2019年3月)

distinct

Solrでdistinct (2019年7月)
SolrのSQLインタフェースでdistinct (2019年8月)

その他

Solr 8.4.0 で追加された”Untrusted Configsets”の制限について (2020年4月)
SolrにBasic認証を設定する (2020年4月)
SolrのUAX29URLEmailTokenizerを使う (2020年3月)
SolrのReadOnlyモード (2019年12月)
WSL上でSolrが動くかどうか試してみた (2019年11月)
[Solr] Lucene8.1に同梱されるようになったLukeを使う (2019年8月)
Apache Solr を Eclipse でリモートでデバッグ (2019年1月)
PDF をページ単位でインデックスする Solr の RequestHandlerを作成する (2018年12月)

SolrのCirtcuit Breakerは具体的に何を見ているのか

はじめに

前回紹介した Circuit Breaker には MemoryCircuitBreaker と CPUCircuitBreaker の2種類があります。それぞれメモリとCPUの使い過ぎに対応しているのだなと何となくは想像が付きますが、具体的にはシステムの何を参照しているのかを調べてみました。

MemoryCircuitBreaker

リファレンスによると、JVMのヒープ使用率が設定値を超えると503を返すと書かれています。MemoryCircuitBreaker の実装をみると、取得しているのは ManagementFactory.getMemoryMXBean().getHeapMemoryUsage().getUsed() でした。これは現在のヒープ使用量をByteで返すものです。

一方、設定ではヒープの使用率を記述するので、比較するには使用率か使用量かのどちらかに変換して合わせる必要があります。
ソースを確認すると、MemoryCircuitBreaker のコンストラクタで memThreashold を読み込んだときに、ヒープの最大値 * memThreshold / 100 で閾値となるメモリ使用量を計算しておき、MemoryMXBean から取得したメモリ使用量がその値を超えたらリクエストを拒否するという実装になっていました。

CPUCircuitBreaker

CPUCircuitBreaker で監視しているのは ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverate() なので OS から取得するロードアベレージです。設定するのはCPU使用率なので、こちらも何らかの変換をしているのかと思いきや、何とソースコードではCPU使用率の閾値(%)とロードアベレージ(0以上の数値、CPUの数にもよるが通常はせいぜい10未満)を直接比較していました。

これだと使用率のつもりで75などと設定しても全く引っ掛からないのはずで不思議に思って調べてみたところ、どうやらバグのようで JIRA に Issue が作られていました。

CPU circuit breaker needs to use CPU utilization, not Unix load average

タイトルそのまんまですね。
ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverate() の代わりに ManagementFactory.getOperatingSystemMXBean().getSystemCPULoad() (0.0-0.1の間のCPU使用率)を使うことが提案されており、近いうちに修正されることと思います。

Solr 8.7で追加されたCircuit Breaker機能

はじめに

Solr 8.7 に Circuit Breaker 機能が追加されました。
いわゆるブレーカーは一定以上の電流が流れたときに回路を遮断する仕組みです。Solr においては想定を超える負荷が掛かったときにサーバが落ちる前にリクエストの受付を停める仕組みになっています。

設定方法

Solr 8.7 に付属の solrconfig.xml には Circuit Breaker 関係の設定が追加されています。説明のコメント部分を除くと以下のような内容です。

    <circuitBreakers enabled="true">
      <!--
       <memBreaker enabled="true" threshold="75"/>
      -->
      <!--
       <cpuBreaker enabled="true" threshold="75"/>
      -->
    </circuitBreakers>

circuitBreakers 要素の enabled 属性が true のときだけ Circuit Breaker 機能が有効になります。
他の部分はコメントを外して設定を有効にすれば良いのかと思ったのですが、リファレンスにはちょっと違うことが書いてあります。リファレンスによると、JVMのヒープ使用率ベースの Circuit Breaker の設定は以下の2項目です。

<str name="memEnabled">true</str>
<str name="memThreshold">75</str>

また、CPU使用率ベースの Circuit Breaker の設定は以下の通りと記載されています。

<str name="cpuEnabled">true</str>
<str name="cpuThreshold">75</str>

CircuitBreakerManager.java を確認すると以下のような読み込み処理があるので、solrconfig.xml ではなくリファレンスの記述の方が正しいようです。

      if (args != null) {
        cpuCBEnabled = Boolean.parseBoolean(args._getStr("cpuEnabled", "false"));
        memCBEnabled = Boolean.parseBoolean(args._getStr("memEnabled", "false"));
        memCBThreshold = Integer.parseInt(args._getStr("memThreshold", "100"));
        cpuCBThreshold = Integer.parseInt(args._getStr("cpuThreshold", "100"));
      }

以下は SearchHandler で circuitBreakerManager によるチェックを実行している箇所です。チェックに引っ掛かると SolrQueryResponse オブジェクト(rsp)に SERVICE_UNAVAILABLE をセットして終了していることが分かります。

    if (req.getCore().getCircuitBreakerManager().isEnabled()) {
      List trippedCircuitBreakers;

      if (timer != null) {
        RTimerTree subt = timer.sub("circuitbreaker");
        rb.setTimer(subt);

        CircuitBreakerManager circuitBreakerManager = req.getCore().getCircuitBreakerManager();
        trippedCircuitBreakers = circuitBreakerManager.checkTripped();

        rb.getTimer().stop();
      } else {
        CircuitBreakerManager circuitBreakerManager = req.getCore().getCircuitBreakerManager();
        trippedCircuitBreakers = circuitBreakerManager.checkTripped();
      }

      if (trippedCircuitBreakers != null) {
        String errorMessage = CircuitBreakerManager.toErrorMessage(trippedCircuitBreakers);
        rsp.add(STATUS, FAILURE);
        rsp.setException(new SolrException(SolrException.ErrorCode.SERVICE_UNAVAILABLE, "Circuit Breakers tripped " + errorMessage));
        return;
      }
    }

おわりに

Circuit Breaker 機能は地味ながら、安定運用のためには便利な機能といえます。今後監視項目をプラグインできるようになる可能性もあり、要注目です。

【Solr】JapaneseReadingFormFilterについて

はじめに

Solrでは、扱う対象の言語に応じた Tokenizer や TokenizerFilter が用意されています。リファレンスに日本語用のものもまとめられています。リファレンスには何故か載っていないもののよく知られているフィルタとして JapaneseReadingFormFilter があります。これは、形態素解析後の単語の読みをインデックスするためのものです。

この JapaneseReadingFormFIlter を使って、漢字の読みで検索できるように設定してみました。

JapaneseReadingFormFilterの基本的な使い方

JapaneseTokenizer を使うフィールドダイプの定義に以下を追加します。

<filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>

_default コンフィグセットの定義に倣うと、以下のようになります。

    <dynamicField name="*_txt_ja_reading" type="text_ja_reading"  indexed="true"  stored="true"/>
    <fieldType name="text_ja_reading" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer>
	<tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
        <filter class="solr.JapaneseBaseFormFilterFactory"/>
	<filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt" />
        <filter class="solr.CJKWidthFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ja.txt" />
        <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
	<filter class="solr.LowerCaseFilterFactory"/>
        <!-- 以下を追加 -->
        <filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>
      </analyzer>
    </fieldType>

読みで検索できるようにする

JapaneseTokenizer で使われている Kuromoji はカタカナで読みを提供するので、JapaneseReadingFormFilter を通した結果はカタカナでインデックスされます。

[
    {
        "id" : "1",
        "body_txt_ja_reading" : "Solr 8.4 からパッケージ管理機能が追加されました。リファレンスによると、ここでいうパッケージは1つまたは複数のプラグインを1つにまとめたものという意味のようです。Solr におけるパッケージ管理について調べました。"
    },
    {
        "id" : "2",
        "body_txt_ja_reading" : "昨日の午後"
    }
]

この2つの文章をインデックスしたときのタームは以下のようになります。

上の基本的な設定の内容だと、インデックス作成時と検索時とで同じ Tokeinizer の設定になっているで、読みで検索するには不都合です。漢字表記とカタカナ表記とで単語の分割のされ方が異なる場合があるからです。

そこで、入力されたカタカナはそのまま利用するというルールにして、検索時には WhitespaceTokenizer を使うことにします。

   <dynamicField name="*_txt_ja_reading" type="text_ja_reading"  indexed="true"  stored="true"/>
    <fieldType name="text_ja_reading" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer type="index">
        <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
        <filter class="solr.JapaneseBaseFormFilterFactory"/>
        <filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt" />
        <filter class="solr.CJKWidthFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ja.txt" />
        <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>
      </analyzer>

      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory" rule="java"/>
      </analyzer>
    </fieldType>

この設定により、「キノウ」で検索すると文書1と2の両方が、「キノウゴゴ」で検索すると文書2だけがヒットするようにできました。

{
  "responseHeader":{
    "zkConnected":true,
    "status":0,
    "QTime":2,
    "params":{
      "q":"キノウ",
      "defType":"edismax",
      "qf":"body_txt_ja_reading",
      "fl":"id,body_txt_ja_reading",
      "stopwords":"true",
      "_":"1606578263384"}},
  "response":{"numFound":2,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"2",
        "body_txt_ja_reading":"昨日の午後"},
      {
        "id":"1",
        "body_txt_ja_reading":"Solr 8.4 からパッケージ管理機能が追加されました。リファレンスによると、ここでいうパッケージは1つまたは複数のプラグインを1つにまとめたものという意味のようです。Solr におけるパッケージ管理について調べました。"}]
  }}

{
  "responseHeader":{
    "zkConnected":true,
    "status":0,
    "QTime":1,
    "params":{
      "q":"キノウ ゴゴ",
      "defType":"edismax",
      "qf":"body_txt_ja_reading",
      "fl":"id,body_txt_ja_reading",
      "q.op":"and",
      "stopwords":"true",
      "_":"1606578263384"}},
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"2",
        "body_txt_ja_reading":"昨日の午後"}]
  }}