[Solr]TextProfileSignatureによるDe-Duplication

はじめに

前回の記事で取り上げた De-Duplication ではハッシュの計算方法として、厳密には一致しなくてもほぼ同内容のドキュメントを同一として扱うためのTextProfileSignature が利用できます。Solr のドキュメントでは以下のように書かれています。

Fuzzy hashing implementation from Apache Nutch for near duplicate detection. It’s tunable but works best on longer text.

https://solr.apache.org/guide/8_8/de-duplication.html

どのくらい Fuzzy でも大丈夫なのか興味があったので調べてみました。

TextProfileSignature クラス

TextProfileSignature クラスの JavaDoc に詳しい説明がありました。

  • 文字と数字以外を取り除いて小文字に統一する
  • ソースを見ると、この判定には Character.isLetterOrDigit() が使われています。
  • 空白区切りでトークンに分割する
  • MIN_TOKEN_LEN(デフォルト2)より短いトークンを捨てる
  • 各トークンの出現回数をカウントする
  • 足きり用の QUANT を計算する。QUANT = QUANT_RATE * 最頻出のトークンの出現回数 (QUANT_RATEのデフォルト0.01)
  • QUANT が2より小さい場合は QUANT = 2 とする。ただし、2回以上出現したトークンが存在しない場合は QUANT = 1 とする。
    • すべてのトークンが1回ずつしか出現しなかった場合は足きりせず全部使うということ
    • ソースを見ると QUANT_RATE * 再頻出のトークンの出現回数 を四捨五入している。つまり、QUANT_RATE が デフォルトの 0.01 であれば、再頻出のトークンの出現回数が250までは QUANT = 2 (1回しか出現しないトークンは捨てられる)となる。
  • QUANT よりも小さい出現回数のトークンを捨てる
  • 残ったトークンを出現回数順に並べて MD5 ハッシュを計算する

ちなみに、空白文字で区切ってトークンを作るという処理なので、日本語のドキュメントにはあまり有効ではなさそうで、日本語ドキュメントで曖昧な De-Deplication をするためには、Tokenizer と連携する ProfileSignature を実装する必要がありそうです。

実験

実験のため、TextProfileSignature を呼び出す簡単なプログラムを作りました。

短いドキュメントでも効果がわかりやすいように、QUANT_RATE は 1 としています。これなら、再頻出のトークンの出現回数が2ならQUANTは2、再頻出のトークンの出現回数が2ならQUANTは3となります。

'I have an apple'  8b821c9e763bb2fc567d473996cfde4a
'I have an apple.' 8b821c9e763bb2fc567d473996cfde4a

記号の有無はハッシュ値に影響を与えません。

'an apple I have' 8b821c9e763bb2fc567d473996cfde4a

トークンの出現回数が同じなら、語順はハッシュ値に影響を与えません。

'I have the apple' 9526cdfcde3ddfad02a0691d564f30ac

トークンが別のものに変わるとハッシュ値も変化します。

'I have apple. I have apple.' 5d5a0ce2d6dc15618d873d5572c4eb5e
'I have a apple. I have the apple.' 5d5a0ce2d6dc15618d873d5572c4eb5e

QUANTが2になるので、1回しか出現しない ‘a’ ‘the’ の有無はハッシュ値に影響を与えません。

'I have an apple. I have an apple. I have the apple.' d95062c38e38e90b1c34b009bf434cda
'I have the apple. I have the apple. I have an apple.' d95062c38e38e90b1c34b009bf434cda

QUANTが3になるので、2回しか出現しない ‘a’ ‘the’ の有無はハッシュ値に影響を与えません。


妹からのエンディングノートの提案

妹があかちゃんの出産に際しエンディングノートを家族みんなに提案してきました。

エンディングノート

親もまだ働いているとはいえそこそこ歳はいってますし昨今の情勢下だとコロナもあります。交通事故や病気を考えるといいタイミングだったなと思います。ここで単純に親に提案するだけだと不穏な感じに捉えられる恐れがありますが家族みんなで書くということなのでそれほど抵抗感はなく受け入れられたかと思います。

エンディングノートはとりあえず共通のものを用意するのが良いです。同じ書式であれば何かあった時も探しやすいと思います。全部埋める必要はないですし最低限のものを書いただけの状態ですが何もない状態よりは全然いいです。とりあえず意識不明の状態になった場合の判断は真っ先に書き残しておきました。あとは気が向いたら追記していく予定です。

追伸:動画の送られてくる赤ちゃんとは別物で実際に会ったあかちゃんめっちゃかわいかった


マニュアルはIndesignで作成しよう!

マニュアルを作成する時どのようなソフトを使用しているでしょうか?
illustratorで作成している方もおられると思うのですが、InDesignで作成するメリットと方法をご紹介したいと思います。

InDesignで作成するメリット

InDesignで作成するメリットとして下記があります。

・ノンブル(ページ番号)が自動で記入される
・タイトルに基づいた目次が自動で記載される
・タイトルなど同じパターンの装飾がある場合はあらかじめ記載される

これらのメリットがあることによって、マニュアルを変更・更新する際の労力がかなり改善されると思います。
InDesignを普段使わない方はイラレと少し使い勝手が異なるので違和感があると思うのですが、一度使い始めるとだんだんなれてくると思いますので一度試してみることをおすすめします。

まずはファイルの新規作成

まずは新規ファイルを作成します。
新規ファイルを作成するときInDesignの場合「レイアウトグリッド」と「マージン・段落」の2つがあります。
特徴は下記のとおりです。

レイアウトグリッド・・・小説やエッセイなど本のようにテキスト主体でレイアウトが決まっている場合に使用します。
マージン・段落・・・パンフレットやカタログなど自由にテキストや写真などを配置したい時に使います。

今回は「マージン・段落」で作成します。
「方向」や「綴じ方」「マージン」などは作成するマニュアルの内容によって決めます。

ページの追加方法

新規作成時にページ数を決めれるのですが、後で追加・削除したい場合はページパネルを右クリックするなどして行います。「ページ」に「8」を入れると8ページ追加されます。

①「ページパネル」を選択します。
②「ページパネル」を右クリックし「ページを挿入」をクリックします。
③追加したいページ数を入力し、OKをクリックします。

ノンブル(ページ番号)の追加方法

まずはページ番号が自動で入るように準備を進めます。

①ページパネルで「A-マスター」をダブルクリックします。
②文字ツールでノンブルを設置したいところに、テキストエリアを作成し「A」と入力します。
③「A」を選択した状態で「書式 > 特殊文字を入力 > マーカー > 現在のページ番号」を選択します。
右側も同様に作成します。
※イラレで言うところの「ポイント文字」はなく「エリア内文字」のみです。

ページに「A-マスター」が適用されているとページがノンブルが記載されます。
※適用されていない場合は、「A-マスター」をページパネルの中のページにドラッグします。もしくはページを選択し、右クリックで「マスターページを適用」をクリックします。

以上でノンブルが自動で割り振られるようになります。

同じパターンのページタイトルの追加方法

同じパターンのページタイトルなどがある場合は、下記のようにします。

①「ページパネル」を右クリックし「新規マスター(B-マスター)」を作成します。
②タイトルを追加します。
③文字の大きさなど設定したら、「段落スタイル」パネルから「新規スタイルを作成」をクリックします。名前を「ページタイトル」など分かりやすい名前に変更します。(後で一括で変更できるようになります。目次作成の際も使用します。)

④「A-マスター」を「B-マスター」にドラッグ&ドロップします。これで「B-マスター」だとノンブルとページタイトルが適用されます。

⑤変更したいページを選択し、右クリック「マスターページを適用」を選択し、「B-マスター」に変更します。

各ページ(B-マスター適用ページ)にタイトルが追加されたと思います。A-マスターも適用されているのでノンブルも追加されています。

タイトルを変更する際は、変更したいページで「shift + command」を押しながらクリックするとタイトルが変更できます。
(そのままクリックしても何も反応がありません)

目次の作成方法

目次もあらかじめ用意しておくと、タイトルに合わせて自動で反映することができます。

①目次ページで長方形ツールで、図形を作成します。
②「レイアウト > 目次」を選択します。

③「目次スタイル」で「段落スタイル」で作成した「ページタイトル」を選択・追加します。
OKをクリックし、①の図形をクリックすると目次が追加されます。

④文字の大きさや色などを調整し、新しく段落スタイル「目次」を追加します。
追加した段落スタイル「目次」をダブルクリックします。
⑤段落スタイルを編集します。「タブ」を選択し、適当な位置(少し右側)にタブを追加し、リーダーに「・」を記入します。
OKをクリックします。

⑥目次とページ番号の間に「・・・」を追加する場合、文字の大きさや色などを調整し、
新しく文字スタイル「目次の点」を追加します。
※「段落スタイル」ではなく「文字スタイル」ということに注意してください。

下記画像のようになったと思います。

次に目次のスタイルを編集します。
「レイアウト > 目次スタイル > 編集」をクリックします。

⑥項目のスタイルを③で作成した「目次」に変更します。
⑦項目と番号間を「^y」に変更し、スタイルを⑥で作成した「目次の点」に変更します。

⑧OKをクリックします。
最後に目次の記載されている図形を選択し、「レイアウト > 目次の更新」をクリックすると変更が反映されているかと思います。

新たにページを追加して目次を変更したい場合は、同様に「レイアウト > 目次の更新」をクリックすると変更が目次に反映されます。

途中から1ページ目にする

表紙を最初に持ってきて、その次から1ページ目にする場合は下記のようにします。

①「ページパネル」のページを開始したい箇所で右クリックし、「ページ番号とセクションの設定」をクリックします。
②「ページ番号割り当て開始」を選択し「1」にしてOKをクリックします。

最後に

マニュアルを作成する際のInDesignの便利な機能をご紹介させていただきました。
慣れないうちは、ややこしいかもしれませんがこれらの方法を使うとマニュアルの更新や変更をする時の手間が大きく改善されると思います。
長くなりましたが最後まで読んでいただきありがとうございました。


[Solr]同じ内容のドキュメントの重複を防ぐ(De-Duplication)

はじめに

Solrでは基本的にIDフィールドの値でドキュメントを区別しているため、IDが異なれば同じ内容のドキュメントでも別々にインデックスされます。同じ内容のドキュメントの重複を防ぎたい場合はDe-Duplicationの機能を利用します。

De-Duplication の設定

De-Duplication を利用するためには、updateRequestProcessorChain に SignatureUpdateProcessor を組み込みます。

ここでは例として大阪の施設情報を利用します。以下のような文書構造になっています。

[
  {
    "id": "官公庁!1",
    "type": "官公庁",
    "area": "住之江区",
    "name": "軽自動車検査協会大阪主管事務所",
    "address": "住之江区南港東3-4-62"
  }
]

solrconfig.xml に以下を追加します。

   <updateRequestProcessorChain name="dedupe">
     <processor class="solr.processor.SignatureUpdateProcessorFactory">
       <bool name="enabled">true</bool>
       <str name="signatureField">signature</str>
       <bool name="overwriteDupes">true</bool>
       <str name="fields">type,name</str>
       <str name="signatureClass">solr.processor.Lookup3Signature</str>
     </processor>
     <processor class="solr.LogUpdateProcessorFactory" />
     <processor class="solr.RunUpdateProcessorFactory" />
   </updateRequestProcessorChain>
  <requestHandler name="/update" class="solr.UpdateRequestHandler" >
    <lst name="defaults">
      <str name="update.chain">dedupe</str>
    </lst>
  </requestHandler>

SignatureUpdateProcessor は、指定されたフィールドのハッシュ値を計算して一致すれば同一ドキュメントとみなすという動きになります。以下の3種類から選んで signatureClass プロパティで指定します。

  • MD5Signature
    • 128ビットのハッシュ
  • Lookup3Signature
    • 64ビットのハッシュ。MD5Signatureよりも高速
  • TextProfileSignature
    • 多少の曖昧さを許す

fieldsプロパティで、どのフィールドが同じなら同一のドキュメントとみなすかを指定します。
上の例では type と name が同一なら同じドキュメントとしました。

signatureField はハッシュ値を格納するフィールドを指定するものです。

overwriteDupes をtrue に設定すると、ドキュメントが同一と判定された場合に新しい方で古い方を上書きします。

実行例

上記の設定をした状態で以下のドキュメントをインデックスします。

[
  {
    "id": "官公庁!1",
    "type": "官公庁",
    "area": "住之江区",
    "name": "軽自動車検査協会大阪主管事務所",
    "address": "住之江区南港東3-4-62"
  }
]

検索結果は以下の通りです。signature フィールドが自動的に付与されています。

{
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"官公庁!1",
        "type":"官公庁",
        "area":"住之江区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":"住之江区南港東3-4-62",
        "signature":"e3e630e5c046e6d3",
        "_version_":1701175515816132608}]
  }}

次に以下のドキュメントをインデックスします。名前と種別は同じで住所が変更になったという設定です。

[
  {
    "id": "官公庁!2",
    "type": "官公庁",
    "area": "港区",
    "name": "軽自動車検査協会大阪主管事務所",
    "address": "港区築港4-10-3"
  }
]

2番目のドキュメントをインデックスした後の検索結果は以下の通りです。

{
  "response":{"numFound":1,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"官公庁!2",
        "type":"官公庁",
        "area":"港区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":"港区築港4-10-3",
        "signature":"e3e630e5c046e6d3",
        "_version_":1701175675284619264}]
  }}

期待通り上書きされています。idも新しいものになっています。

ちなみに、overwriteDupes = false で設定した場合には以下のようになりました。

{
  "response":{"numFound":2,"start":0,"numFoundExact":true,"docs":[
      {
        "id":"官公庁!1",
        "type":"官公庁",
        "area":"住之江区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":"住之江区南港東3-4-62",
        "signature":"e3e630e5c046e6d3",
        "_version_":1701175515816132608},
      {
        "id":"官公庁!2",
        "type":"官公庁",
        "area":"港区",
        "name":"軽自動車検査協会大阪主管事務所",
        "address":"港区築港4-10-3",
        "signature":"e3e630e5c046e6d3",
        "_version_":1701175519813304320}]
  }}

「上書きしない」というのは古い方のドキュメントがそのまま残るのかと思っていましたが、同じシグネチャのドキュメントが重複してインデックスされるということでした。


継続は力なり

本年もよろしくお願いいたします!
寒くてハクキンカイロが手放せません、マエダです。

リモートワークも板についてきてSlack上でみんなの書き初め(ボールペンでもデジタルでも可)発表会をしました。

昨年の書き初め記事はこちら。

初心忘るべからず

今年の僕の書き初めはこちら。

「継続」ってかんたんそうで一番むずかしいことだなって常々思います。
だって、にんげんだもの。

昨年の書き初めブログに書いた「初心」を忘れないことを継続します。
一昨年の書き初めブログに書いた「チャレンジすること」を継続します。
さらに前年ブログに書いた「感謝」の気持ちを持って気を引き締めて取り組ませていただくことを継続します。

スプラウトのミッションステートメントは「とりあえず、やってみよう」。※1
ビジョン実現まで諦めずに継続します。
今年も頑張ります!!!

サステナブル。



※ 1「THE VIRGIN WAY」をリスペクトさせていただいております。