SolrとZeppelinによる可視化

Zeppelinを使えばクエリの結果を簡単に可視化できるので、色々試してみます。
サンプルデータとしていつもの通り大阪市の施設情報を利用します。こんな感じのデータです。

$ curl 'http://localhost:8983/solr/test1/select?omitHeader=true&fl=name_str%2Ctype_str%2Carea_str%2Caddress_str%2Caddress_p&indent=true&rows=3&q=*%3A*'
{
  "response":{"numFound":9238,"start":0,"numFoundExact":true,"docs":[
      {
        "address_p":"34.6164938333333,135.438210722222",
        "name_str":["軽自動車検査協会大阪主管事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-4-62"]},
      {
        "address_p":"34.6190439722222,135.442191833333",
        "name_str":["大阪陸運支局なにわ自動車検査登録事務所"],
        "type_str":["官公庁"],
        "area_str":["住之江区"],
        "address_str":["住之江区南港東3-1-14"]},
      {
        "address_p":"34.6109641111111,135.491388722222",
        "name_str":["住吉税務署"],
        "type_str":["官公庁"],
        "area_str":["住吉区"],
        "address_str":["住吉区住吉2丁目17番37号"]}]
  }}

まずは表形式の出力。
search() の構文では、最初の引数がコレクション名、それ以降に solr のクエリパラメータを書けます。

search() の代わりに random() にすると、同じクエリでランダムサンプリングになります。

facet() を使って区別の施設数を円グラフで。

同じことを SQL でも書けます。

施設種別毎の施設数を各区で比較した図。

ヒートマップによる区毎の比較。

Navigator.userAgentDataを使いたい

現在、検討が進められているUA-CHですが、導入にあまり乗り気では無いFirefoxが、
先日(6月)、Navigator.userAgentData実装のトラッキングステータスを “UNCONFIRMED” から “New” へ移行させました。

1750143 – Implement Navigator.userAgentData
https://bugzilla.mozilla.org/show_bug.cgi?id=1750143

これにより、少なくともuserAgentDataのプロトタイプが実装される可能性が少し高まったのではないかと考えています。実際の製品版への実装時期は未定。優先度も高くないため、
完全に取り下げられる場合もあり得る状況ですが、standards-positionsの議論を見ている限りでは、ユーザーエージェントの情報を構造化することについては肯定的なところもあるように見えます。

Navigator.userAgentDataが使えると何が嬉しいのか。

User-Agentの解析というと、これまでは以下のような文字列を解析していました。

Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Mobile Safari/537.36 EdgA/90.0.818.46

構造化されたuserAgentDataであれば、スマートフォンやタブレットの判定がこれで済みます。

const isMobile = navigator.userAgentData.mobile;

他にも、以下のような構造でデータが取得できます。

{
  "brands": [
    {
      "brand": "Chromium",
      "version":"91"
    },
    {
      "brand": "Microsoft Edge",
      "version":"91"
    },
    {
      "brand": "GREASE",
      "version":"99"
    }
  ],
  "mobile": false 
}

// https://docs.microsoft.com/ja-jp/microsoft-edge/web-platform/user-agent-guidance#user-agent-client-hints-javascript-api

特定の端末やブラウザの判定、対応がこれまで以上にやり易くなりそうです。
UA-CH自体とは無関係に実装して欲しい機能であることだなぁというところです。

ところで、炎暑酷暑のみぎりではありますが、Safari様におかれましてはご健勝でしょうか。userAgentの文字列は凍結するのかどうかどっちなんでしょうか。パワーでしょうか。
Push APIは、来年ようやく対応されるとのこと。おめでとうございますありがとうございます。

暑熱耐え難き時節、皆様夏風邪など召されませぬようご自愛ください。

SolrとZeppelinを連携させる

はじめに

Apache Zeppelin というウェブベースのノートブックプロダクトがあります。
ノートブックとはブラウザ上で動作する、対話型のプログラム実行環境で、プログラムやその実行結果、説明のテキストなどを同一のページ上で保存・管理するためのものです。試行錯誤の過程をそのまま記録として残すことができるので、データ分析でよく利用されます。
有名なノートブックとして Jupyter Notebook があります。

Zeppelin は Spark や各種 RDBMS など、様々なデータソースやインタープリタと連携させることができます。Solr との連携も可能です。

Zeppelin インストール

https://zeppelin.apache.org/docs/latest/quickstart/install.html
からダウンロードして展開後、以下を実行。

$ ./install-interpreter.sh --name solr --artifact com.lucidworks.zeppelin:zeppelin-solr:0.1.6
Install solr(com.lucidworks.zeppelin:zeppelin-solr:0.1.6) to /home/splout/zeppelin-0.10.1-bin-all/interpreter/solr ...
Interpreter solr installed under /home/splout/zeppelin-0.10.1-bin-all/interpreter/solr.

1. Restart Zeppelin
2. Create interpreter setting in 'Interpreter' menu on Zeppelin GUI
3. Then you can bind the interpreter on your note

Zeppelin 起動

$ ./zeppelin-daemon.sh start

Solr との連携を設定

  1. http://localhost:8080/ にアクセスしてメニュー「Interpreter」を開く。
  2. Solr の Properties を設定する
    • solr.baseUrl, solr.collection, jdbc.url, jdbc.driver
  3. 「Create New Note」で新しいノートブックを開く
    • Default Interpreter を solr にする

実行例

以降の操作対象をコレクション test1 にする

use test1

全件検索

search q=*:*&fl=area,name,address,type,address_p

検索対象のコレクションを実行時に指定することもできる

search(test1,q=area_str:中央区,fl="name_str,area_str,address_str,type_str,address_p",rows=100)

[Solr] Streaming Expressios と Math Expressions 利用例のページが充実している

Solr はそもそもは検索エンジン・検索サーバですが、Streaming Expressios や Math Expressions という機能を組み合わせることで、データサイエンスのツールとしても使えます。

公式サイトResoucesのページの Documentation の項に Visual Guide to Streaming Expressions and Math Expressions というリンクがあり、そこで数多くの利用例を見ることができます。

目次はこんな感じです。

  • Visualizations
  • Getting Started
  • Data Loading
  • Searching, Sampling and Aggregation
  • Transforming Data
  • Scalar Math
  • Vector Math
  • Variables and Vectorization
  • Matrix Math
  • Text Analysis and Term Vectors
  • Probability
  • Statistics
  • Linear Regression
  • Curve Fitting
  • Time Series
  • Interpolation and Numerical Calculus
  • Signal Processing
  • Simulations
  • Machine Learning
  • Computational Geometry

たとえばこんな感じで、データ分析の各手法とその利用例がずらっと並んでいます。 Visual Guide となっているだけあって、データの可視化にも力が入っています。

Stream Expression には前から興味はあったのですが、このページを取っ掛かりにして勉強してみようと思います。

2022年を振り返り2023年の目標を決める

こんにちわ。
リエです。

2023年卯年。こんにちわ。
お正月はいつも通り寝正月でしたが、年末年始はカレンダー通りだったので生活リズムが崩れなかったのはよかったです。無事社会復帰できました。

弊社では毎年メンバー全員で書き初めをするという新年イベントがあるので、その準備として2022年を振り返り2023年の目標を決めたいと思います。

2022年は振り返るとお恥ずかしいことに一つ一つのお仕事を終わらしていくことに必死で流れ作業になっていることが多々ありました。
あれやったっけ?それ私がやりましたっけ?とうろ覚えになっていることもたくさんあり、やばいですよね。

ですが、そんな自分でもなんとかお仕事をできていたのは周りの人たちのサポートがあったからです。
自分の目標や夢を周りの人たちがサポートしたくさん叶えてくれていました。感謝しかありません。

日々感謝の気持ちをもてているかと言われると全然そうではなく、自分に余裕がなかったりイライラしているときはもてていないので2023年は感謝の気持ちを忘れそうになったら一度立ち止まり深呼吸をし感謝の気持ちを思い出したいと思います。

書き初めする内容は決まったぜ✌
字を書かなさすぎて汚いので書き初めまでに習字の練習をします。(悪あがき)