タグ: Solr

[Solr] zeppelin-solrで単語の使われ方を可視化する

zeppelin-solr の事例の1つ “Text Analysis and Term Vectors” では Solr 内のドキュメントをテキスト解析してその特徴を可視化する方法の例が示されています。これを日本語のドキュメントでやってみました。

対象は日本語版Wikipediaとします。
Streaming Expressions の analyze 関数を使うと指定した文字列を形態素解析できます。

analyze("システム構成の概要", text)

「システム構成の概要」が対象の文字列、text は text フィールドで定義されている Tokenizer でトークナイズするという意味です。 Wikipedia 用のコレクションを作るときの設定で text フィールドは Kuromoji を使った形態素解析をすると定義されています。

上の analyze の実行結果は以下の通りです。

[システム, 構成, 概要]

では解析結果を使って図示してみましょう。
“Text Analysis and Term Vectors” では、英語のドキュメントの bi-gram をカウントして多いものトップ10をグラフにしていました。ここでは、「漫画」を含む Wikipedia の記事のタイトルを形態素解析して単語をカウントし、多いものトップ20をグラフにしました。

結果は以下の通りです。
ultimate-pie-chart を使っています。
円グラフの内訳が降順になっていないのが気になるところですが、こういう仕様のようです。

[Solr] 外部パッケージ化された Data Import Handler (DIH) を使う

はじめに

Solr 8.6 以降 Data Import Handler (DIH)が deprecated となり、外部パッケージ化されました。

https://cwiki.apache.org/confluence/display/SOLR/Deprecations
https://github.com/rohitbemax/dataimporthandler

以前やったように Wikipedia の記事をインポートする作業を通じて、外部パッケージ化された DHI を利用する方法を確認しました。

Wikipedia のデータダウンロード

https://dumps.wikimedia.org/jawiki/
の latest から jawiki-latest-pages-articles.xml.bz2 をダウンロードして展開しておきます。

DIHをSolrにインストールする

パッケージ機能を有効にして Solr を起動

$ bin/solr -c -Denable.packages=true

data-import-handler パッケージのリポジトリを追加

$ bin/solr package add-repo data-import-handler "https://raw.githubusercontent.com/rohitbemax/dataimporthandler/master/repo/"

data-import-handler パッケージインストール

$ bin/solr package install data-import-handler

Wikipedia インポート用のコレクション設定

$ cd solr-8.10.0/server/solr/configsets
$ cp -r _default wikipedia
$ vi wikipedia/conf/data-config.xml

DIH 用の設定ファイル data-config.xml を作成します。

<dataConfig>
  <dataSource type="FileDataSource" encoding="UTF-8" />
  <document>
    <entity name="page"
                processor="XPathEntityProcessor"
                stream="true"
                forEach="/mediawiki/page/"
                url="data/jawiki-latest-pages-articles.xml"
                transformer="RegexTransformer,DateFormatTransformer">
      <field column="id"        xpath="/mediawiki/page/id" />
      <field column="title"     xpath="/mediawiki/page/title" />
      <field column="revision"  xpath="/mediawiki/page/revision/id" />
      <field column="user"      xpath="/mediawiki/page/revision/contributor/username" />
      <field column="userId"    xpath="/mediawiki/page/revision/contributor/id" />
      <field column="text"      xpath="/mediawiki/page/revision/text" />
      <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
      <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
    </entity>
  </document>
</dataConfig>

読み込み対象を data/jawiki-latest-pages-articles.xml と指定しているので、記事ファイルを ${SOLR}/server/data/jawiki-latest-pages-articles.xml としてコピーしておきます。

設定ファイルのセットを ZooKeeper 上にアップロードします。

(cd conf && zip -r - *) |curl -X POST --header "Content-Type:application/octet-stream" --data-binary @- "http://localhost:8983/solr/admin/configs?action=UPLOAD&name=wikipedia"

コレクション wikipedia を作成して DIH を有効にする

先程アップロードした設定ファイルを指定して、コレクション wikipedia を作成します。

$ curl "http://localhost:8983/solr/admin/collections?action=CREATE&name=wikipedia&numShards=1&collection.configName=wikipedia"

コレクション wikipedia に data-import-handler をデプロイします。

$ bin/solr package deploy data-import-handler -y -collections wikipedia

Wikipedia の記事をインポートする

full-import をスタート。

$ curl "http://localhost:8983/solr/wikipedia/dataimport?command=full-import"

[Solr] zeppelin-solr で Geospatial

Zeppelin 上で Solr の検索結果を地図にプロットすることもできます。

まずはメニューから Helium を開き、 volume-leaflet を有効にします。

volume-leaflet が利用可能になったらノートブック上で地球のアイコンが追加されます。

検索結果に緯度経度のフィールドが含まれる形で検索してから valume-leaflet を開き、Available Fields の coodinates に緯度経度のフィールド(この場合は address_p)を、tooltip に name_str のフィールドを指定するとプロットされます。(popup や gis_server は任意)

位置情報を持つデータ傾向を地図上で簡単に把握できる非常に良い手段だと思います。

[Solr] Heliumパッケージを使って zeppelin-solr の可視化手段を増やす

Zeppelinには始めからいくつかの可視化の手法が用意されていますが、Helium パッケージを使って後から追加することもできます。飛行船に追加するものだからヘリウムなんですね。

そのためには、Zeppelin の設定ファイルを変更して Helium パッケージリポジトリを有効にする必要があります。conf/zeppelin-site.xml.template をコピーして conf/zeppelin-site.xml を作り、以下のコメントアウトされている箇所を有効にします。

$ diff -u conf/zeppelin-site.xml.template conf/zeppelin-site.xml
--- conf/zeppelin-site.xml.template     2022-02-24 12:56:08.000000000 +0900
+++ conf/zeppelin-site.xml      2022-07-24 23:50:42.829396848 +0900
@@ -410,13 +410,11 @@
   <description>Remote Yarn package installer url for Helium dependency loader</description>
 </property>

-<!--
 <property>
   <name>zeppelin.helium.registry</name>
   <value>helium,https://s3.amazonaws.com/helium-package/helium.json</value>
   <description>Location of external Helium Registry</description>
 </property>
--->

 <property>
   <name>zeppelin.interpreter.group.default</name>

設定ファイルの準備ができたら zeppelin を再起動します。

$ bin/zeppelin-daemon.sh restart

Helium パッケージリポジトリを有効にしたら Zeppelin のページにアクセスしてメニューから Helium を開き、追加するパッケージを選んで “Enable” ボタンを押します。

パッケージを最初に追加するときにはかなり時間が掛かる場合もありますが、しばらく待てば利用できる状態になります。今回は ultimate-heatmap-chart を追加しました。

以下は、大阪市のどの区にどの施設が沢山あるかを示すヒートマップチャートです。

SolrとZeppelinによる可視化

Zeppelinを使えばクエリの結果を簡単に可視化できるので、色々試してみます。
サンプルデータとしていつもの通り大阪市の施設情報を利用します。こんな感じのデータです。

$ curl 'http://localhost:8983/solr/test1/select?omitHeader=true&fl=name_str%2Ctype_str%2Carea_str%2Caddress_str%2Caddress_p&indent=true&rows=3&q=*%3A*'
{
  "response":{"numFound":9238,"start":0,"numFoundExact":true,"docs":[
      {
        "address_p":"34.6164938333333,135.438210722222",
        "name_str":["軽自動車検査協会大阪主管事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-4-62"]},
      {
        "address_p":"34.6190439722222,135.442191833333",
        "name_str":["大阪陸運支局なにわ自動車検査登録事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-1-14"]},
      {
        "address_p":"34.6109641111111,135.491388722222",
        "name_str":["住吉税務署"],
        "type_str":["官公庁"],
        "area_str":["住吉区"],
        "address_str":["住吉区住吉2丁目17番37号"]}]
  }}

まずは表形式の出力。
search() の構文では、最初の引数がコレクション名、それ以降に solr のクエリパラメータを書けます。

search() の代わりに random() にすると、同じクエリでランダムサンプリングになります。

facet() を使って区別の施設数を円グラフで。

同じことを SQL でも書けます。

施設種別毎の施設数を各区で比較した図。

ヒートマップによる区毎の比較。