タグ: Solr

[Solr] 外部パッケージ化された Data Import Handler (DIH) を使う

はじめに

Solr 8.6 以降 Data Import Handler (DIH)が deprecated となり、外部パッケージ化されました。

https://cwiki.apache.org/confluence/display/SOLR/Deprecations
https://github.com/rohitbemax/dataimporthandler

以前やったように Wikipedia の記事をインポートする作業を通じて、外部パッケージ化された DHI を利用する方法を確認しました。

Wikipedia のデータダウンロード

https://dumps.wikimedia.org/jawiki/
の latest から jawiki-latest-pages-articles.xml.bz2 をダウンロードして展開しておきます。

DIHをSolrにインストールする

パッケージ機能を有効にして Solr を起動

$ bin/solr -c -Denable.packages=true

data-import-handler パッケージのリポジトリを追加

$ bin/solr package add-repo data-import-handler "https://raw.githubusercontent.com/rohitbemax/dataimporthandler/master/repo/"

data-import-handler パッケージインストール

$ bin/solr package install data-import-handler

Wikipedia インポート用のコレクション設定

$ cd solr-8.10.0/server/solr/configsets
$ cp -r _default wikipedia
$ vi wikipedia/conf/data-config.xml

DIH 用の設定ファイル data-config.xml を作成します。

<dataConfig>
  <dataSource type="FileDataSource" encoding="UTF-8" />
  <document>
    <entity name="page"
                processor="XPathEntityProcessor"
                stream="true"
                forEach="/mediawiki/page/"
                url="data/jawiki-latest-pages-articles.xml"
                transformer="RegexTransformer,DateFormatTransformer">
      <field column="id"        xpath="/mediawiki/page/id" />
      <field column="title"     xpath="/mediawiki/page/title" />
      <field column="revision"  xpath="/mediawiki/page/revision/id" />
      <field column="user"      xpath="/mediawiki/page/revision/contributor/username" />
      <field column="userId"    xpath="/mediawiki/page/revision/contributor/id" />
      <field column="text"      xpath="/mediawiki/page/revision/text" />
      <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
      <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
    </entity>
  </document>
</dataConfig>

読み込み対象を data/jawiki-latest-pages-articles.xml と指定しているので、記事ファイルを ${SOLR}/server/data/jawiki-latest-pages-articles.xml としてコピーしておきます。

設定ファイルのセットを ZooKeeper 上にアップロードします。

(cd conf && zip -r - *) |curl -X POST --header "Content-Type:application/octet-stream" --data-binary @- "http://localhost:8983/solr/admin/configs?action=UPLOAD&name=wikipedia"

コレクション wikipedia を作成して DIH を有効にする

先程アップロードした設定ファイルを指定して、コレクション wikipedia を作成します。

$ curl "http://localhost:8983/solr/admin/collections?action=CREATE&name=wikipedia&numShards=1&collection.configName=wikipedia"

コレクション wikipedia に data-import-handler をデプロイします。

$ bin/solr package deploy data-import-handler -y -collections wikipedia

Wikipedia の記事をインポートする

full-import をスタート。

$ curl "http://localhost:8983/solr/wikipedia/dataimport?command=full-import"

[Solr] zeppelin-solr で Geospatial

Zeppelin 上で Solr の検索結果を地図にプロットすることもできます。

まずはメニューから Helium を開き、 volume-leaflet を有効にします。

volume-leaflet が利用可能になったらノートブック上で地球のアイコンが追加されます。

検索結果に緯度経度のフィールドが含まれる形で検索してから valume-leaflet を開き、Available Fields の coodinates に緯度経度のフィールド(この場合は address_p)を、tooltip に name_str のフィールドを指定するとプロットされます。(popup や gis_server は任意)

位置情報を持つデータ傾向を地図上で簡単に把握できる非常に良い手段だと思います。


[Solr] Heliumパッケージを使って zeppelin-solr の可視化手段を増やす

Zeppelinには始めからいくつかの可視化の手法が用意されていますが、Helium パッケージを使って後から追加することもできます。飛行船に追加するものだからヘリウムなんですね。

そのためには、Zeppelin の設定ファイルを変更して Helium パッケージリポジトリを有効にする必要があります。conf/zeppelin-site.xml.template をコピーして conf/zeppelin-site.xml を作り、以下のコメントアウトされている箇所を有効にします。

$ diff -u conf/zeppelin-site.xml.template conf/zeppelin-site.xml
--- conf/zeppelin-site.xml.template     2022-02-24 12:56:08.000000000 +0900
+++ conf/zeppelin-site.xml      2022-07-24 23:50:42.829396848 +0900
@@ -410,13 +410,11 @@
   <description>Remote Yarn package installer url for Helium dependency loader</description>
 </property>

-<!--
 <property>
   <name>zeppelin.helium.registry</name>
   <value>helium,https://s3.amazonaws.com/helium-package/helium.json</value>
   <description>Location of external Helium Registry</description>
 </property>
--->

 <property>
   <name>zeppelin.interpreter.group.default</name>

設定ファイルの準備ができたら zeppelin を再起動します。

$ bin/zeppelin-daemon.sh restart

Helium パッケージリポジトリを有効にしたら Zeppelin のページにアクセスしてメニューから Helium を開き、追加するパッケージを選んで “Enable” ボタンを押します。

パッケージを最初に追加するときにはかなり時間が掛かる場合もありますが、しばらく待てば利用できる状態になります。今回は ultimate-heatmap-chart を追加しました。

以下は、大阪市のどの区にどの施設が沢山あるかを示すヒートマップチャートです。


SolrとZeppelinによる可視化

Zeppelinを使えばクエリの結果を簡単に可視化できるので、色々試してみます。
サンプルデータとしていつもの通り大阪市の施設情報を利用します。こんな感じのデータです。

$ curl 'http://localhost:8983/solr/test1/select?omitHeader=true&fl=name_str%2Ctype_str%2Carea_str%2Caddress_str%2Caddress_p&indent=true&rows=3&q=*%3A*'
{
  "response":{"numFound":9238,"start":0,"numFoundExact":true,"docs":[
      {
        "address_p":"34.6164938333333,135.438210722222",
        "name_str":["軽自動車検査協会大阪主管事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-4-62"]},
      {
        "address_p":"34.6190439722222,135.442191833333",
        "name_str":["大阪陸運支局なにわ自動車検査登録事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-1-14"]},
      {
        "address_p":"34.6109641111111,135.491388722222",
        "name_str":["住吉税務署"],
        "type_str":["官公庁"],
        "area_str":["住吉区"],
        "address_str":["住吉区住吉2丁目17番37号"]}]
  }}

まずは表形式の出力。
search() の構文では、最初の引数がコレクション名、それ以降に solr のクエリパラメータを書けます。

search() の代わりに random() にすると、同じクエリでランダムサンプリングになります。

facet() を使って区別の施設数を円グラフで。

同じことを SQL でも書けます。

施設種別毎の施設数を各区で比較した図。

ヒートマップによる区毎の比較。


SolrとZeppelinを連携させる

はじめに

Apache Zeppelin というウェブベースのノートブックプロダクトがあります。
ノートブックとはブラウザ上で動作する、対話型のプログラム実行環境で、プログラムやその実行結果、説明のテキストなどを同一のページ上で保存・管理するためのものです。試行錯誤の過程をそのまま記録として残すことができるので、データ分析でよく利用されます。
有名なノートブックとして Jupyter Notebook があります。

Zeppelin は Spark や各種 RDBMS など、様々なデータソースやインタープリタと連携させることができます。Solr との連携も可能です。

Zeppelin インストール

https://zeppelin.apache.org/docs/latest/quickstart/install.html
からダウンロードして展開後、以下を実行。

$ ./install-interpreter.sh --name solr --artifact com.lucidworks.zeppelin:zeppelin-solr:0.1.6
Install solr(com.lucidworks.zeppelin:zeppelin-solr:0.1.6) to /home/splout/zeppelin-0.10.1-bin-all/interpreter/solr ...
Interpreter solr installed under /home/splout/zeppelin-0.10.1-bin-all/interpreter/solr.

1. Restart Zeppelin
2. Create interpreter setting in 'Interpreter' menu on Zeppelin GUI
3. Then you can bind the interpreter on your note

Zeppelin 起動

$ ./zeppelin-daemon.sh start

Solr との連携を設定

  1. http://localhost:8080/ にアクセスしてメニュー「Interpreter」を開く。
  2. Solr の Properties を設定する
    • solr.baseUrl, solr.collection, jdbc.url, jdbc.driver
  3. 「Create New Note」で新しいノートブックを開く
    • Default Interpreter を solr にする

実行例

以降の操作対象をコレクション test1 にする

use test1

全件検索

search q=*:*&fl=area,name,address,type,address_p

検索対象のコレクションを実行時に指定することもできる

search(test1,q=area_str:中央区,fl="name_str,area_str,address_str,type_str,address_p",rows=100)