タグ: Solr

Solrの記事リスト(〜2020年12月)

はじめに

ふと気付けばこのブログの Solr の記事が40本を超えていました。Solr タグで検索していただくこともできますが、もう少し見やすくなるようにトピックで分類して記事タイトルとリンクの形でリスト化してみました。

Prometheus連携

パッケージ管理

JSON Request API

Docker

日付表現

SolrCloudのリーダー選出

SolrCloud

インデックス作成

distinct

その他


SolrのCirtcuit Breakerは具体的に何を見ているのか

はじめに

前回紹介した Circuit Breaker には MemoryCircuitBreaker と CPUCircuitBreaker の2種類があります。それぞれメモリとCPUの使い過ぎに対応しているのだなと何となくは想像が付きますが、具体的にはシステムの何を参照しているのかを調べてみました。

MemoryCircuitBreaker

リファレンスによると、JVMのヒープ使用率が設定値を超えると503を返すと書かれています。MemoryCircuitBreaker の実装をみると、取得しているのは ManagementFactory.getMemoryMXBean().getHeapMemoryUsage().getUsed() でした。これは現在のヒープ使用量をByteで返すものです。

一方、設定ではヒープの使用率を記述するので、比較するには使用率か使用量かのどちらかに変換して合わせる必要があります。
ソースを確認すると、MemoryCircuitBreaker のコンストラクタで memThreashold を読み込んだときに、ヒープの最大値 * memThreshold / 100 で閾値となるメモリ使用量を計算しておき、MemoryMXBean から取得したメモリ使用量がその値を超えたらリクエストを拒否するという実装になっていました。

CPUCircuitBreaker

CPUCircuitBreaker で監視しているのは ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverate() なので OS から取得するロードアベレージです。設定するのはCPU使用率なので、こちらも何らかの変換をしているのかと思いきや、何とソースコードではCPU使用率の閾値(%)とロードアベレージ(0以上の数値、CPUの数にもよるが通常はせいぜい10未満)を直接比較していました。

これだと使用率のつもりで75などと設定しても全く引っ掛からないのはずで不思議に思って調べてみたところ、どうやらバグのようで JIRA に Issue が作られていました。

CPU circuit breaker needs to use CPU utilization, not Unix load average

タイトルそのまんまですね。
ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverate() の代わりに ManagementFactory.getOperatingSystemMXBean().getSystemCPULoad() (0.0-0.1の間のCPU使用率)を使うことが提案されており、近いうちに修正されることと思います。


Solr 8.7で追加されたCircuit Breaker機能

はじめに

Solr 8.7 に Circuit Breaker 機能が追加されました。
いわゆるブレーカーは一定以上の電流が流れたときに回路を遮断する仕組みです。Solr においては想定を超える負荷が掛かったときにサーバが落ちる前にリクエストの受付を停める仕組みになっています。

設定方法

Solr 8.7 に付属の solrconfig.xml には Circuit Breaker 関係の設定が追加されています。説明のコメント部分を除くと以下のような内容です。

    <circuitBreakers enabled="true">
      <!--
       <memBreaker enabled="true" threshold="75"/>
      -->
      <!--
       <cpuBreaker enabled="true" threshold="75"/>
      -->
    </circuitBreakers>

circuitBreakers 要素の enabled 属性が true のときだけ Circuit Breaker 機能が有効になります。
他の部分はコメントを外して設定を有効にすれば良いのかと思ったのですが、リファレンスにはちょっと違うことが書いてあります。リファレンスによると、JVMのヒープ使用率ベースの Circuit Breaker の設定は以下の2項目です。

<str name="memEnabled">true</str>
<str name="memThreshold">75</str>

また、CPU使用率ベースの Circuit Breaker の設定は以下の通りと記載されています。

<str name="cpuEnabled">true</str>
<str name="cpuThreshold">75</str>

CircuitBreakerManager.java を確認すると以下のような読み込み処理があるので、solrconfig.xml ではなくリファレンスの記述の方が正しいようです。

      if (args != null) {
        cpuCBEnabled = Boolean.parseBoolean(args._getStr("cpuEnabled", "false"));
        memCBEnabled = Boolean.parseBoolean(args._getStr("memEnabled", "false"));
        memCBThreshold = Integer.parseInt(args._getStr("memThreshold", "100"));
        cpuCBThreshold = Integer.parseInt(args._getStr("cpuThreshold", "100"));
      }

以下は SearchHandler で circuitBreakerManager によるチェックを実行している箇所です。チェックに引っ掛かると SolrQueryResponse オブジェクト(rsp)に SERVICE_UNAVAILABLE をセットして終了していることが分かります。

    if (req.getCore().getCircuitBreakerManager().isEnabled()) {
      List trippedCircuitBreakers;

      if (timer != null) {
        RTimerTree subt = timer.sub("circuitbreaker");
        rb.setTimer(subt);

        CircuitBreakerManager circuitBreakerManager = req.getCore().getCircuitBreakerManager();
        trippedCircuitBreakers = circuitBreakerManager.checkTripped();

        rb.getTimer().stop();
      } else {
        CircuitBreakerManager circuitBreakerManager = req.getCore().getCircuitBreakerManager();
        trippedCircuitBreakers = circuitBreakerManager.checkTripped();
      }

      if (trippedCircuitBreakers != null) {
        String errorMessage = CircuitBreakerManager.toErrorMessage(trippedCircuitBreakers);
        rsp.add(STATUS, FAILURE);
        rsp.setException(new SolrException(SolrException.ErrorCode.SERVICE_UNAVAILABLE, "Circuit Breakers tripped " + errorMessage));
        return;
      }
    }

おわりに

Circuit Breaker 機能は地味ながら、安定運用のためには便利な機能といえます。今後監視項目をプラグインできるようになる可能性もあり、要注目です。


【Solr】JapaneseReadingFormFilterについて

はじめに

Solrでは、扱う対象の言語に応じた Tokenizer や TokenizerFilter が用意されています。リファレンスに日本語用のものもまとめられています。リファレンスには何故か載っていないもののよく知られているフィルタとして JapaneseReadingFormFilter があります。これは、形態素解析後の単語の読みをインデックスするためのものです。

この JapaneseReadingFormFIlter を使って、漢字の読みで検索できるように設定してみました。

JapaneseReadingFormFilterの基本的な使い方

JapaneseTokenizer を使うフィールドダイプの定義に以下を追加します。

<filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>

_default コンフィグセットの定義に倣うと、以下のようになります。

    <dynamicField name="*_txt_ja_reading" type="text_ja_reading"  indexed="true"  stored="true"/>
    <fieldType name="text_ja_reading" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer>
	<tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
        <filter class="solr.JapaneseBaseFormFilterFactory"/>
	<filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt" />
        <filter class="solr.CJKWidthFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ja.txt" />
        <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
	<filter class="solr.LowerCaseFilterFactory"/>
        <!-- 以下を追加 -->
        <filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>
      </analyzer>
    </fieldType>

読みで検索できるようにする

JapaneseTokenizer で使われている Kuromoji はカタカナで読みを提供するので、JapaneseReadingFormFilter を通した結果はカタカナでインデックスされます。

[
    {
        "id" : "1",
        "body_txt_ja_reading" : "Solr 8.4 からパッケージ管理機能が追加されました。リファレンスによると、ここでいうパッケージは1つまたは複数のプラグインを1つにまとめたものという意味のようです。Solr におけるパッケージ管理について調べました。"
    },
    {
        "id" : "2",
        "body_txt_ja_reading" : "昨日の午後"
    }
]

この2つの文章をインデックスしたときのタームは以下のようになります。

上の基本的な設定の内容だと、インデックス作成時と検索時とで同じ Tokeinizer の設定になっているで、読みで検索するには不都合です。漢字表記とカタカナ表記とで単語の分割のされ方が異なる場合があるからです。

そこで、入力されたカタカナはそのまま利用するというルールにして、検索時には WhitespaceTokenizer を使うことにします。

   <dynamicField name="*_txt_ja_reading" type="text_ja_reading"  indexed="true"  stored="true"/>
    <fieldType name="text_ja_reading" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer type="index">
        <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
        <filter class="solr.JapaneseBaseFormFilterFactory"/>
        <filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt" />
        <filter class="solr.CJKWidthFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ja.txt" />
        <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.JapaneseReadingFormFilterFactory" useRomaji="false"/>
      </analyzer>

      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory" rule="java"/>
      </analyzer>
    </fieldType>

この設定により、「キノウ」で検索すると文書1と2の両方が、「キノウ ゴゴ」で検索すると文書2だけがヒットするようにできました。

{
  "responseHeader":{
    "zkConnected":true,
    "status":0,
    "QTime":2,
    "params":{
      "q":"キノウ",
      "defType":"edismax",
      "qf":"body_txt_ja_reading",
      "fl":"id,body_txt_ja_reading",
      "stopwords":"true",
      "_":"1606578263384"}},
  "response":{"numFound":2,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"2",
        "body_txt_ja_reading":"昨日の午後"},
      {
        "id":"1",
        "body_txt_ja_reading":"Solr 8.4 からパッケージ管理機能が追加されました。リファレンスによると、ここでいうパッケージは1つまたは複数のプラグインを1つにまとめたものという意味のようです。Solr におけるパッケージ管理について調べました。"}]
  }}
{
  "responseHeader":{
    "zkConnected":true,
    "status":0,
    "QTime":1,
    "params":{
      "q":"キノウ ゴゴ",
      "defType":"edismax",
      "qf":"body_txt_ja_reading",
      "fl":"id,body_txt_ja_reading",
      "q.op":"and",
      "stopwords":"true",
      "_":"1606578263384"}},
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"2",
        "body_txt_ja_reading":"昨日の午後"}]
  }}

【Solr】3種類の言語判定ライブラリの対応言語

はじめに

Solrでのインデックス作成の際の言語判定には以下の3種類のライブラリが利用できます。

  • Apache Tika
  • LangDetect
  • Apache OpenNLP

ただし、Solrのリファレンスを読んでも、どのライブラリがどの言語をサポートしているかの情報がありません。詳細についてはそれぞれのプロジェクトページを参照するようにと書かれているので確認してみました。

Apache Tika

プロジェクトのページには言語判定について詳しい情報が無かったので、ソースコードを確認しました。

LanguageIdentifierクラスを見ると、各言語のプロファイルとして .ngp という拡張子のファイルを読み込んでいることが分かります。そこで、solr-8.6.1 同梱の tika-core-1.2.jar に含まれる .ngp ファイルをリストアップしました。

$ jar tvf ./contrib/extraction/lib/tika-core-1.24.jar | grep .ngp
 10960 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/be.ngp
 10411 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/ca.ngp
 10004 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/da.ngp
  9999 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/de.ngp
 12664 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/el.ngp
  9897 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/en.ngp
 10292 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/eo.ngp
  9960 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/es.ngp
  9648 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/et.ngp
 11479 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/fa.ngp
 10081 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/fi.ngp
 10050 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/fr.ngp
 10416 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/gl.ngp
  9738 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/hu.ngp
  9301 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/is.ngp
  9960 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/it.ngp
 12509 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/lt.ngp
  9923 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/nl.ngp
  9373 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/no.ngp
  9165 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/pl.ngp
 10023 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/pt.ngp
 10456 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/ro.ngp
 11783 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/ru.ngp
 10431 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/sk.ngp
 10329 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/sl.ngp
 10081 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/sv.ngp
 14302 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/th.ngp
 11942 Wed Mar 11 18:05:28 JST 2020 org/apache/tika/language/uk.ngp

サポートされている言語は28。日本語はサポートされていないようです。

LangDetect

リファレンスからリンクされているプロジェクトページがgithubになっており、ほとんど情報が無いため、こちらもソースコードを確認しました。

profiles というディレクトリの下に各言語のプロファイルが置かれています。

$ ls profiles
af  bg  cs  de  en  et  fi  gu  hi  hu  it  kn  lt  mk  mr  nl  pa  pt  ru  sl  sq  sw  te  tl  uk  vi     zh-tw
ar  bn  da  el  es  fa  fr  he  hr  id  ja  ko  lv  ml  ne  no  pl  ro  sk  so  sv  ta  th  tr  ur  zh-cn

サポートされている言語は53。日本語も含まれています。

Apache OpenNLP

こちらはREADMEにしっかり記載されていました。

サポートされている言語は103。日本語も含まれています。