SolrとNutchを組み合わせてウェブサイトのインデックスを作成する

はじめに

Apache Nutch はオープンソースのウェブクローラです。Nutch でクロールした結果を Solr でインデックスするという連携が簡単にできるようになっています。

Nutch のインストール

ダウンロード

https://www.apache.org/dyn/closer.cgi/nutch/ から apache-nutch-1.18-bin.tar.gz をダウンロードします。

展開

$ tar zxf apache-nutch-1.18-bin.tar.gz
$ cd apache-nutch-1.18

設定ファイル

設定ファイルは conf/nutch-default.xml と conf/nutch-site.xml です。 nutch-default.xml にはコメントも詳しく書かれているので、読めば設定の意味を理解できます。変更したい箇所だけ nutch-site.xml に記述します。

<configuration>
  <property>
    <name>http.agent.name</name>
    <value>Splout Nutch Spider</value>
  </property>
</configuration>

同一サイトへの連続アクセスの際のディレイは fetcher.server.delay で5秒と設定されているので、今回はこのまま使います。robot.txt の有るサイトではその指示に従うようです。

クローリング対象の設定

urls/seed.txt というファイルに1行1URLでクローリングの起点となるURLを記述します。

mkdir urls
echo https://blog.splout.co.jp/ > urls/seed.txt

ドキュメントに含まれるリンクを次々と辿っていくわけですが、特定のサイト以外のURLはクローリングしないように指示することができます。そのためのファイルが conf/regex-urlfilter.txt です。

今回は blog.splout.co.jp だけを対象としますので、regex-urlfilter.txt の最後の行

+.

+^https?://blog\.splout\.co\.jp/

に変更します。

クローリング実行

Nutch にはクローリング実行用のスクリプトも含まれていますが、ここではチュートリアルに従って1ステップずつ実行してみます。

$ bin/nutch inject crawl/crawldb urls
$ bin/nutch generate crawl/crawldb crawl/segments
$ s1=`ls -d crawl/segments/2* | tail -1`
$ echo $s1
crawl/segments/20210925115243
$ bin/nutch fetch $s1
$ bin/nutch updatedb crawl/crawldb $s1

ここまでで1ターン終わりです。

inject (URLの起点をDBに入れる) → generate (セグメント(1回のfetch処理でアクセスされるURLの集合)を作成) → fetch (ウェブコンテンツの取得) → コンテンツデータベースの更新

という流れです。

ここまでで集まったURLを元にして次のターンを実行します。

$ bin/nutch generate crawl/crawldb crawl/segments -topN 100
$ s2=`ls -d crawl/segments/2* | tail -1`
$ bin/nutch fetch $s2
$ bin/nutch parse $s2
$ bin/nutch updatedb crawl/crawldb $s2

スクリプトを使えばこれを自動で回してくれるわけです。

Invertlinks作成

どのページがどこからリンクされているかの情報を作ります。

$ bin/nutch invertlinks crawl/linkdb -dir crawl/segments

Solrセットアップ

configsets/_default をベースにして schema.xml だけ Nutch で用意されているものを使います。

$ tar zxf solr-8.5.1.tgz
$ cd solr-8.5.1
$ mkdir server/solr/configsets/nutch
$ cp -r server/solr/configsets/_default/* server/solr/configsets/nutch/
$ cp ../apache-nutch-1.18/plugins/indexer-solr/schema.xml server/solr/configsets/nutch/conf/
$ rm server/solr/configsets/nutch/conf/managed-schema 
$ bin/solr start
$ bin/solr create -c nutch -d server/solr/configsets/nutch/conf/

Solrインデックス作成

インデックス作成に関する設定は conf/index-writers.xml にあります。Solrに関する設定は以下のとおりです。

  <writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter">
    <parameters>
      <param name="type" value="http"/>
      <param name="url" value="http://localhost:8983/solr/nutch"/>
      <param name="collection" value=""/>
      <param name="weight.field" value=""/>
      <param name="commitSize" value="1000"/>
      <param name="auth" value="false"/>
      <param name="username" value="username"/>
      <param name="password" value="password"/>
    </parameters>
    <mapping>
      <copy>
        <!-- <field source="content" dest="search"/> -->
        <!-- <field source="title" dest="title,search"/> -->
      </copy>
      <rename>
        <field source="metatag.description" dest="description"/>
        <field source="metatag.keywords" dest="keywords"/>
      </rename>
      <remove>
        <field source="segment"/>
      </remove>
    </mapping>
  </writer>

インデックス作成を実行します。

$ bin/nutch index crawl/crawldb/ $s2 -filter -normalize -deleteGone
(略)
Indexing 67/67 documents
Deleting 0 documents
Indexer: number of documents indexed, deleted, or skipped:
Indexer:     67  indexed (add/update)
Indexer: finished at 2021-09-25 15:35:30, elapsed: 00:00:01

オプションの意味は以下の通りです。

  • filter: 設定済みのURLフィルタを使って不要なURLを弾く
  • normalize: インデックス前にURLを正規化する
  • deleteGone: 404になったページや内容が重複するページなどについてはインデックスからの削除のリクエストを出す

検索してみる

“solr”で検索してみます。

$ curl -s 'http://localhost:8983/solr/nutch/select?omitHeader=true&rows=1&q=content:solr'
{
  "response":{"numFound":26,"start":0,"docs":[
      {
        "tstamp":"2021-09-25T05:42:51.082Z",
        "digest":"7268d16a01450b9d925824316fa1a7e4",
        "boost":0.009592353,
        "id":"https://blog.splout.co.jp/12174/",
        "title":"Solrの記事リスト(〜2020年12月) | SPLOUT BLOG",
        "url":"https://blog.splout.co.jp/12174/",
        "content":"Solrの記事リスト(〜2020年12月) | SPLOUT BLOG\nWORKS\nCOMPANY\nRECRUIT\nBLOG\nCONTACT\ntoggle navigation\nWORKS\nCOMPANY\nRECRUIT\nBLOG\nPRIVACY POLICY\nSECURITY POLICY\nCONTACT\nSolrの記事リスト(略)",
        "_version_":1711854563263250432}]
  }}

記事IDとしてURLが使われていることが分かります。管理用のいくつかのフィールドを除くと、記事に関するフィールドは以下の通りです。

  • title: 記事タイトル
  • url: 記事URL
  • content: 記事本文

これらを変更する場合は、Nutch 側の conf/index-writer.xml と Solr 側の schema.xml を変更することになります。

1989年ごろの大阪の地図

部屋の整理をしていたら古い神戸・大阪の地図が出てきました。発行は1989年2月となっています。大学生となってこちらに出てきたときに買ったものだと思います。30年以上前のものとあって今とは大きく違っている場所も多く、面白くてずいぶん時間をつぶしてしまいました。

まず目に付いたのは鉄道の路線図です。大阪地下鉄の路線図を見ると1990年の花博よりも前とあって長堀鶴見緑地線がありません。それより後に開業した今里筋線も当然ありません。堺筋線が動物園前駅までしかなかったり、ニュートラムが中ふ頭駅までで中央線とつながってなかったりするのもツボです。

京阪神広域の路線図で今と違うところを探すのも楽しいです。

グランフロントのない梅田。右上の扇町公園に移転前の大阪プールがあるのもポイント高いです。

まだ大阪球場のある難波。

ひとつ残念だったのは、1989年2月というと26区から24区への変更のあったときで、この地図はぎりぎり変更後のものだったということです。中央区になる前の東区と南区とか、北区に合併される前の大淀区とかの表示がある地図だったら良かったのになあという気もします。もしそうだったら買った当時には不都合があったかもしれませんが。

MacBookを新しい端末に移行してみた

もうIntel Macには戻れない。
マエダです。

先日、M2チップ搭載のMacBook Airに開発環境を移行してみました。

M2というからには現状一番スペックが高いのかと思ってましたが、M1 < M2 < M1 Pro < M1 Max < M1 Ultraというポジションのようです。
僕はグラフィック編集や動画編集ができるスキルは持ってないためM2で十分です。

これまで仮想環境をローカルで動作させたりしているとものすごい音がしていたこともありましたが、M2になってからは全く音がなくなり快適に利用できています。

利用に際してポイントは以下。

■ CocoaPodsはgemでなく、Homebrewでインストールすべし

こういった動作確認できるかできないかの問題は時間が解決してくれますが、現状brewでインストールしておけば正常に利用可能です。

sudo gem install cocoapods

brew install cocoapods

https://cocoapods.org/

■ Intel Mac用アプリもRosettaで互換できるかもしれない

すべてのアプリの検証は不可なため「かもしれない」としてますが、移行に不安な方もこういったものがあるんだなくらい知っておくと新しい端末に移行してみようと思えるかもです。

https://support.apple.com/ja-jp/HT211861

■ ローカルVMはMultipassが便利

vagrantを使ってきましたが現状正常動作できておらずこちらも時間が解決してくれると思いますが、UbuntuユーザーならMultipassというVMが非常にシンプルで便利です。

https://multipass.run/

移行するときにいろいろと作業に便利なシェル関連をコピペすることがあるかと思いますが、古い端末から新しい端末へのコピーは共有ドライブを利用したりしてましたがイマドキはドラッグ&ドロップでできてしまいます。

※ Apple公式からお借りしました。

https://support.apple.com/ja-jp/HT212757

こんなことができるなんて知らなかったし調べたこともなかったのでひとつの端末でどちらも操作できたときは失礼ながらバグったのかと思いました。。。

どんどん便利になってとても快適。

僕たちもワクワクするようなプロダクトを提供できるようがんばります!

[Solr] Atomic Updates による部分的な更新

Solrの更新は基本的に上書きです。更新する必要の無いフィールドの値もすべて指定して更新処理を呼び出します。たとえば以下のようなドキュメントがインデックスされているとします。

{"id":"1", "title":"タイトル1", "body":"本文1", "remarks":"備考1"}

remaksがrequired=”false”なフィールドだとすると、

{"id":"1", "title":"タイトル2", "body":"本文2"}

で更新すると

{"id":"1", "title":"タイトル2", "body":"本文2", "remarks":"備考1"}

ではなく

{"id":"1", "title":"タイトル2", "body":"本文2"}

になります。

ただし、更新対象となるドキュメントのすべてのフィールドが stored=”true” または docValues=”true” である場合には特定のフィールドだけを部分的に更新することができます。これを Atomic Updates と呼びます。

以下のスキーマ定義で

    <field name="type"     type="string"  indexed="true" stored="false" multiValued="false" docValues="true" useDocValuesAsStored="true"/>
    <field name="area"     type="string"  indexed="true" stored="valse" multiValued="false" docValues="true" useDocValuesAsStored="true"/>
    <field name="name"     type="text_ja"  indexed="true" stored="true" multiValued="false"/>
    <field name="address"  type="string"  indexed="true" stored="valse" multiValued="true" docValues="true" useDocValuesAsStored="true"/>
    <field name="address_p"  type="location"  indexed="true" stored="false" multiValued="false" docValues="true" useDocValuesAsStored="true"/>
    <field name="score"     type="pint"  indexed="true" stored="false" multiValued="false" docValues="true" useDocValuesAsStored="true"/>

以下のデータが入っているとします。

$ curl -s 'http://localhost:8983/solr/osaka_shisetsu4/select?omitHeader=true&q=*%3A*'
{
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"10",
        "name":"軽自動車検査協会大阪主管事務所",
        "area":"住之江区",
        "score":10,
        "address":["住之江区南港東3-4-62"],
        "address_p":"34.6164939,135.4382107",
        "_version_":1709611640162353152,
        "type":"官公庁"}]
  }}

Atomic Update で部分的に更新します。

[{
    "id":"10",
    "type":{"set":"官公庁1"},
    "address":{"add":"すみのえくなんこうひがし3-4-62"},
    "score":{"inc":3},
}]
  • type の「官公庁」を「官公庁1」で置き換え
  • address (multiValued)に「すみのえくなんこうひがし3-4-62」を追加
  • score の 10 に 3 を加算
$ curl -s 'http://localhost:8983/solr/osaka_shisetsu4/select?omitHeader=true&q=*%3A*'
{
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"10",
        "name":"軽自動車検査協会大阪主管事務所",
        "area":"住之江区",
        "score":13,
        "address":["すみのえくなんこうひがし3-4-62",
          "住之江区南港東3-4-62"],
        "address_p":"34.6164939,135.4382107",
        "_version_":1709615534472953856,
        "type":"官公庁1"}]
  }}

add の代わりに add-distinct を指定すると、その値が含まれていないときだけ追加されます。

multiValued のデータから値を削除することもできます。

[{
    "id":"10",
    "address":{"remove":"すみのえくなんこうひがし3-4-62"}
}]

正規表現を使って複数削除することもできます。

[{
    "id":"10",
    "address":{"removeregex":"すみのえ.*"}
}]
$ curl -s 'http://localhost:8983/solr/osaka_shisetsu4/select?omitHeader=true&q=*%3A*'
{
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"10",
        "name":"軽自動車検査協会大阪主管事務所",
        "area":"住之江区",
        "score":13,
        "address":["住之江区南港東3-4-62"],
        "address_p":"34.6164939,135.4382107",
        "_version_":1709616620606849024,
        "type":"官公庁1"}]
  }}

オーストラリア料理

こんにちは。開発担当のマットです。

今、日本に住んでいますけれども、オーストラリア生まれ育ちで、このあいだ、家族と会うためにオーストラリアに一時的に帰国させていただきました〜 (行きも帰りも2週間の隔離をやりましたので、ご安心くださいw)

オーストラリアに行っている間、日本で中々食べられないオーストラリア料理や調味料を食べれて、この記事でそれらを日本人の皆様に紹介したいと思います。

ミント・ゼリー

英名: Mint Jelly

Author: Jeremy Keith from Brighton & Hove, United Kingdom

ミント・ゼリーはその名の通り、ミントから作られるゼリーです。
実はミントよりも、リンゴ酢と砂糖がメインな具材ですけれども、ミントをちょっと入れるだけでミントの味が勝ちますね。
デザートではなく、ラム肉や焼き野菜の上にちょっと乗せる調味料です。

実は一年前、親戚の畑の一部がミントにはびこっていましたので、採りに行って自分で作ろうとしました。家中がミントの匂いに覆われ、最終的に酸っぱくなりすぎて、あまり美味しくないものをできてしまいました。
でも、美味しいミント・ゼリーを食べたら、抜群に美味いです。

日本人も絶対好きな味だと思います。

ミート・パイ

英名: Meat Pie

Author: Finbar.concaig

毎日の朝食に、ミート・パイを食べるオーストラリア人は少なくないと思います。

オーストラリアのパン屋さんに行くと、食パンの次に多いのはパイです。
多くの味があります。ビーフのパイは代表的ですが、カレー・チキン、ステーキ・マッシュルームなど、多くの種類はあります。

一度、贅沢をして、「和牛ステーキ・ブルーチーズ・マッシュルーム」のパイを食べたことがあります。
最高に美味しかったです。

オーストラリアですので、必ずケッチャプをたくさん掛けます。
ちなみに、オーストラリアで「ケッチャプ」の言葉は決して言いません。「トマト・ソース」と呼びます。

牛肉コロッケなどが好きな方なら、ミート・パイを気に入ると思います。

パヴロヴァ

英名: Pavlova

Author: William Brawley

メレンゲのケーキを焼いて、その上に生クリームとフルーツを乗せるデザートです。
メレンゲの味付けもできますし、フルーツを好きなものにできますので、各家族に「ウチの味のパヴロヴァ」ってありますね。僕はレモンメレンゲにキウィフルーツが好きです。

もともとロシアのバレーダンサーの家庭のレシピだったそうですが、オーストラリアとニュージーランドで流行りまして、そこからオージー・ニュージーのデザートを代表するヒットになりました。

日本でも流行ったら大人気になると思います。

ベジマイト

英名: Vegemite

Author: Tristanb

僕の心の中でベジマイトは日本の納豆の役割を果たしています。
日本人の中でも納豆の好き嫌いはありますが、外国人に「納豆を食べれますか?」と聞くことが多い。
ベジマイトも同様。オーストラリア人の中にも好き嫌いは多いけど、「オーストラリア人しか食べられないでしょう…」のイメージが付いている物ですね。

味自体は苦いです。
イースト菌と野菜のエキスから作られているスプレッド(パンに塗るもの)です。

青汁とか、濃い味噌の味が好きな方なら、日本人の中でも好きな人はいるかと思いますが、おそらく99%の日本人はベジマイトを食べたら「嫌い」というと思いますw

まとめ

他にもたくさんありますが、この記事を書くと、お腹がペコペコになってしまいました。
冷蔵庫にあるベジマイトを久しぶりに出して、サンドイッチでも食べようかな。

ソフトウェアの開発担当として、毎日コツコツ、近くにいるエンジニアさん達からも、インターネットの方々からも、色々なことを学んで、自分の力を磨き上げることは仕事です。
私生活にでも、食生活にでも、近くにいる人と外国からも、良い知識を学んで、新しい料理を作ってみたりとかして、日常を少し豊かにすることはいいかもしれませんね。