Solrで日本語版Wikipediaのインデックスを作った場合のサイズをTokenizerの設定毎に調べる

はじめに

Solrで日本語の文書を扱う場合に考えなくてはならないことの一つに、Tokenizerをどれにするか、があります。ざっくり言うと、n-gram(だいたいは2-gram)にするか、形態素解析にするか、です。
それぞれの長所、短所はこんな感じです。

n-gram

長所

検索漏れが少ない
未知語に強い

短所

nより短いキーワードを扱えない
インデックスサイズが大きくなる
検索結果のノイズが多い

形態素解析

長所

検索結果のノイズが少ない
インデックスサイズを小さくする余地が大きい

短所

未知語に弱い
入力キーワードに対する完全一致検索が難しい

双方の長所・短所に出てきたインデックスサイズがどれくらいの差になるのかを日本語版Wikipediaを対象に調べてみました。

SolrにWikipediaを投入する

Wikipediaのダンプデータをダウンロード

https://dumps.wikimedia.org/jawiki/
の latest から jawiki-latest-pages-articles.xml.bz2 をダウンロードして展開しておきます。

configset準備

_default をベースに設定ファイルを用意します。

cp -r server/solr/configsets/_default server/solr/configsets/wikipedia

wikipedia/conf/solrconfig.xml に以下を追加

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

<requestHandler name="/dataimport" class="solr.DataImportHandler">
  <lst name="defaults">
    <str name="config">solr-data-config.xml</str>
  </lst>
</requestHandler>

Wikppediaインポート用の DataImportHander の設定 solr-data-config.xml を
https://wiki.apache.org/solr/DataImportHandler#Example:_Indexing_wikipedia
を参考にして作成

<dataConfig>
  <dataSource type="FileDataSource" encoding="UTF-8" />
  <document>
    <entity name="page"
                processor="XPathEntityProcessor"
                stream="true"
                forEach="/mediawiki/page/"
                url="data/jawiki-latest-pages-articles.xml"
                transformer="RegexTransformer,DateFormatTransformer">
      <field column="id"        xpath="/mediawiki/page/id" />
      <field column="title"     xpath="/mediawiki/page/title" />
      <field column="revision"  xpath="/mediawiki/page/revision/id" />
      <field column="user"      xpath="/mediawiki/page/revision/contributor/username" />
      <field column="userId"    xpath="/mediawiki/page/revision/contributor/id" />
      <field column="text"      xpath="/mediawiki/page/revision/text" />
      <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
      <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
    </entity>
  </document>
</dataConfig>

configsetをアップロード

(cd server/solr/configsets/wikipedia/conf && zip -r - *) |curl -X POST --header "Content-Type:application/octet-stream" --data-binary @- "http://localhost:8983/solr/admin/configs?action=UPLOAD&name=wikipedia"

コレクション”wikipedia”を作成

curl 'http://localhost:8983/solr/admin/collections?action=CREATE&name=wikipedia&numShards=1&replicationFactor=1&collection.configName=wikipedia&wt=xml'

インポート開始

管理画面からインポート開始

各Tokenizerの設定

以下の4種類の設定で試してみます。
今回は手っ取り早く上記の手順の「configsetの準備」のところで managed-schema ファイルを編集しています。

CJK bigram

managed-schema の変更箇所

(略)
<pre>
    <fieldType name="text_cjk" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <!-- normalize width before bigram, as e.g. half-width dakuten combine  -->
        <filter class="solr.CJKWidthFilterFactory"/>
        <!-- for any non-CJK -->
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.CJKBigramFilterFactory"/>
      </analyzer>
    </fieldType>
</pre>
(略)
<field name="title"     type="string"  indexed="true" stored="false"/>
<field name="revision"  type="pint"    indexed="true" stored="true"/>
<field name="user"      type="string"  indexed="true" stored="true"/>
<field name="userId"    type="pint"     indexed="true" stored="true"/>
<field name="text"      type="text_cjk"    indexed="true" stored="false"/>
<field name="timestamp" type="pdate"    indexed="true" stored="true"/>
(略)

Kuromoji (mode=normal)

辞書通りの分割
(例) 株式会社→「株式会社」

managed-schema の変更箇所

(略)
<pre>
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory" mode="normal"/>
        <filter class="solr.JapaneseBaseFormFilterFactory"/>
        <filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt" />
        <filter class="solr.CJKWidthFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ja.txt" />
        <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>
</pre>
(略)
<field name="title"     type="string"  indexed="true" stored="false"/>
<field name="revision"  type="pint"    indexed="true" stored="true"/>
<field name="user"      type="string"  indexed="true" stored="true"/>
<field name="userId"    type="pint"     indexed="true" stored="true"/>
<field name="text"      type="text_ja"    indexed="true" stored="false"/>
<field name="timestamp" type="pdate"    indexed="true" stored="true"/>
(略)

Kuromoji (mode=search)

複合語を細かく分割
株式会社→「株式」「会社」

managed-schema の変更箇所

        <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>

それ以外は mode=normal と同じ。

Kuromoji (mode=extended)

mode=search + 未知語を 1-gram に分割

managed-schema の変更箇所

        <tokenizer class="solr.JapaneseTokenizerFactory" mode="extended"/>

それ以外は mode=normal と同じ。

結果

	インデックスサイズ	生成時間
CJK	5.9GB	35分
Kuromoji(normal)	3.1GB	76分
Kuromoji(search)	3.1GB	83分
Kuromoji(extended)	2.1GB	79分

ちなみに、日本語版Wikipedia全記事のテキスト部分のサイズをカウントしてみたところ、約1.4GBでした。

まとめ

Solrで日本語版Wikipedia全記事のインデックスを作成しました。2-gramのインデックスサイズは形態素解析インデックスの約2倍になりました。

Kuromoji(extended)は未知語を1-gramに分割する分他のモードよりもインデックスサイズが大きくなると予想していたのですが、逆に30%強も小さくなりました。ここはもうちょっと調べてみる必要がありそうです。

Next Read: この春新社会人になるあなたへ »

Androidアプリでバーコードリーダーから値を受け取る
先日、Android タブレッ…
AWS Lambda で読みがな変換関数を作成する
とある用途で日本語文字列→読み…
jqのクエリをインタラクティブに作成する
JSON のデータを扱うときに…