SPLOUT BLOG - Part 62

はじめに

SolrCloudにおいては、Collection API の BACKUP コマンドを使ってインデックスのバックアップを取ることができます。複数のノード、シャード、レプリカが存在する場合に具体的にどのような形でバックアップが残るのかを調べてみました。

対象のコレクション

実験用に backup_test というコレクションを作成しました。シャード2個がそれぞれレプリカを２個持つ構成です。

コレクション	シャード	レプリカ
backup_test	shard1	localhost:8983
backup_test	shard1	localhost:7574
backup_test	shard2	localhost:8983
backup_test	shard2	localhost:7574

ここに、以前実験に利用した大阪の施設情報を投入しました。

バックアップの実行

バックアップは以下のように実行します。

$ curl 'http://localhost:8983/solr/admin/collections?action=BACKUP&name=backup1&collection=backup_test&location=/tmp/solr_backup'

パラメータ	説明
action	バックアップコマンドとして”BACKUP”を指定
name	バックアップの名前。以前指定したものとは衝突しないようにする
collection	バックアップ対象のコレクション
location	バックアップ出力先ディレクトリ

一つ注意が必要なのは、クラスタが複数のサーバから構成される場合には、バックアップの出力先は共有ドライブでなければならないということです。

バックアップの内容

出力先を調べると、以下の内容がバックアップに含まれていることが分かります。

backup.properties
コレクションの設定情報
シャード毎のインデックスファイル

$ find /tmp/solr_backup/backup1
/tmp/solr_backup/backup1
/tmp/solr_backup/backup1/backup.properties
/tmp/solr_backup/backup1/zk_backup
/tmp/solr_backup/backup1/zk_backup/configs
/tmp/solr_backup/backup1/zk_backup/configs/backup_test
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/solrconfig.xml
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/protwords.txt
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/stopwords.txt
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/params.json
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/synonyms.txt
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/lang
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/lang/stopwords_tr.txt
(略)
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/lang/contractions_fr.txt
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/configoverlay.json
/tmp/solr_backup/backup1/zk_backup/configs/backup_test/managed-schema
/tmp/solr_backup/backup1/zk_backup/collection_state.json
/tmp/solr_backup/backup1/snapshot.shard2
/tmp/solr_backup/backup1/snapshot.shard2/_3.fdt
/tmp/solr_backup/backup1/snapshot.shard2/_1_Lucene50_0.tim
/tmp/solr_backup/backup1/snapshot.shard2/segments_2
(略)
/tmp/solr_backup/backup1/snapshot.shard2/_0_Lucene50_0.pos
/tmp/solr_backup/backup1/snapshot.shard2/_2_Lucene80_0.dvm
/tmp/solr_backup/backup1/snapshot.shard2/_1_Lucene50_0.doc
/tmp/solr_backup/backup1/snapshot.shard1
/tmp/solr_backup/backup1/snapshot.shard1/_3.fdt
/tmp/solr_backup/backup1/snapshot.shard1/_1_Lucene50_0.tim
/tmp/solr_backup/backup1/snapshot.shard1/segments_2
(略)
/tmp/solr_backup/backup1/snapshot.shard1/_0_Lucene50_0.pos
/tmp/solr_backup/backup1/snapshot.shard1/_2_Lucene80_0.dvm
/tmp/solr_backup/backup1/snapshot.shard1/_1_Lucene50_0.doc

backup.properties は以下のような内容のファイルです。

#Backup properties file
#Sun Sep 19 14:21:47 UTC 2019
collection.configName=backup_test
collectionAlias=backup_test
startTime=2019-09-29T14\:21\:47.122280Z
collection=backup_test
backupName=backup1
index.version=8.1.0

おわりに

コレクションのバックアップを作成したときに具体的にどういうファイルが生成されるのかを調べました。次回はリストアの動作を確認してみます。

愛してやまない食べ物

こんにちわ。
リエです。

夏ころから急に大好きになった食べ物があります。
それは、フルーツサンド🍓🍌🍊🍎🍑。

コンビニのフルーツサンドはもちろん（セブンイレブン、ローソン、ファミマは制した）パン屋さんのフルーツサンドもいくつか食べました。

コンビニでもパン屋さんでもつねにあるわけではないので、見つけたら買っています。週1回は食べている。（だって美味しいもん）

パン屋さんではダントツでパンとエスプレッソとさんのフルーツサンドが大好きです。（写真は撮ってなくてない。。）

ちなみにダイヤ製パンというパン屋さんは、フルーツサンドの種類がめっちゃ多くておすすめです。https://www.dia-pan.com/sandwich/fruitsand/

パン屋さんのフルーツサンドはもちろん美味しいのですが、コンビニのフルーツサンドもかなりレベルが高いです！手軽に買えるのもいいところですよね。
コンビニの中で1番好きなのはローソンのSAND FULLフルーツです。

見た目はかなりボリューミー。
甘い系のフルーツサンドかな〜と思って食べたらびっくり！
フルーツがかなり大きい。クリームの甘さも控えめで大きめにカットされたフルーツと相性バツグン。コンビニの域を超えてるな〜と感動しました。
しかしこのローソンのフルーツサンド。なかなか出会えない。
わたしは3店舗探して見つけました。見つけたときはかなりテンション上がりましたよ。

ただローソンのはお値段が少しリッチなので、コスパで考えるとセブンイレブンのフルーツサンドがお安くて美味しくておすすめです！

夏ころから始まった、このフルーツサンドブーム。
今のところ全然飽きてないのでブームはまだまだ続きそうです。

コーディングはやり始めるときは楽しいのですが、どんどん進めていくうちに、だんだんと入力が面倒になってきますよね。
そこで、コーディングを効率的に進める上で欠かせないのが「Emmet」です！

Emmetというのは、HTMLやCSSの入力をサポートするツールです。

「そんなのエディタの自動補完を使ってもいいじゃん。」という声も聞こえてきそうですが、Emmetに慣れてくるとコーディングのストレス軽減に大きな違いを実感できると思います。

入力例として

「height:100px」を入力するときは、
「h100」と入力→「Tab」キーを押す

「<div class=”wraper”></div>」を入力するときは、
「div.wraper」と入力→「Tab」キーを押す
というような感じになります。

慣れれば慣れるほどその効果を実感できると思います。

それではVSCodeでEmmetを使って行きましょう。

「Tab」キーでEmmet省略記法が展開されるようにする

①基本設定＞設定から「設定」を開きます。
②上部の検索窓から「emmet」を入力
③「trigger Expansion On Tab」にチェックをいれます。

これで準備が整いました。

HTMLの雛形を出力

まずは、HTMLの雛形を出力していきましょう。
VSCodeを開いてtest.htmlというファイルを作成して保存します。

それでは「html:5」と入力して「Tab」キーを押してください。下記のように展開されましたね。

html:5

↓↓↓

<!DOCTYPE html>
<html lang="en">
<head>
  
  
  Document
</head>
<body>
  
</body>
</html>

このままでは、「lang=”en”」になっているので、「基本設定＞設定」から「emmet」を入力して、「settings.jsonで編集」をクリックします。
そして下記の１行を追加します。

{
  "emmet.variables": {"lang" : "ja"}
}

「html:5」と入力して「Tab」キーを押すと、先程enになっていたところがjaになります。

EmmetのHTMLサンプル

基本的には「○○＋Tab」なので、下記を参考に一度試してみていただければと思います。

aタグ

↓↓↓

class名

a.top

↓↓↓

ID名

a#header

↓↓↓

リストタグを並べる場合

ul.test_list>li.test_item*3

↓↓↓

EmmetのCSSサンプル

height

h10

↓↓↓

height: 10px;

width

w100%

↓↓↓

width: 100%;

border-radius

bdrs4

↓↓↓

border-radius: 4px;

上記はほんの一例で、下記のリンクに各スタイルの記述する方法が書かれています。
https://docs.emmet.io/cheat-sheet/

これらをすべて覚えるのは難しいので、よく使うスタイルやhtmlだけでも覚えるとコーディングの負荷を軽減できると思います。
ぜひ活用してみてください！

唇に唐辛子がついたら大パニック

こんにちわ。
リエです。

とつぜんですが、皆さんは辛いものは好きですか？
わたしは程よく好きなのですが、これは唇に唐辛子がついたときのお話です。

あれは今年の6月頃。お家で麻婆豆腐を食べていました。
もう少し辛い方がいいなぁと思い、たまたまお家にあった乾燥唐辛子を数本刻んで追加しました。思ったとおり辛くなり美味しく食べていたのですが、ふいに唇を指で触ったら唇がなんか痛くなってきました。

それからがもう地獄。
めっちゃ唇が痛い。焼けるようにヒリヒリ痛い。

唐辛子を刻んだ指で唇を触ったことにより、カプサイシンが唇についてしまい激痛を引き起こしたのです。

すぐに水で洗ったのですが、全然痛みはマシにならず。。
Google先生に助けを求めました。

唐辛子が唇についたときはどうすればいいの？

唐辛子のヒリヒリの原因であるカプサイシンは脂溶性。つまり、油に溶けるということです。なので油で拭くと痛みが和らぐそうです。
ご家庭にある油といったら以下でしょうか。
・サラダ油
・ごま油
・オリーブオイル　など

また乳製品もカプサイシンと結びつき痛みを和らげる効果があるそうです。
油も乳製品もどのご家庭にも常備しているものだと思うので、すぐ使うことができますね。

実際に試したこと

わたしがまず試したのは、サラダ油で拭くということ。
拭いた直後はマシになりましたが、少し時間が経つとまたヒリヒリ。。
そうだ、乳製品も試してみようと冷蔵庫を空けたらなんと！乳製品（牛乳やヨーグルトなど）が一切ないですやん／(^O^)＼もう絶体絶命のピンチ。
泣きそうになりながら冷蔵庫を見ていたら、ミックスジュースを発見。
ミックスジュースには牛乳が入っているから、もしかしていけるんちゃうかということでミックスジュースで唇を拭いてみました。
すると【痛みが収まったではありませんか( ；∀；)！！！】
もうミックスジュースに感謝しかありません。
油で拭いてみて痛みが取れない方は乳製品で拭くことをオススメします。

カプサイシンおそるべし。

NGINXでキャッシュを行う

NGINXでリバースプロキシする際、キャッシュを行いパフォーマンスを上げることができます。

メリット
・upstreamサーバへのリクエストを減らすことができる。
・NGINXとupstreamサーバ間のトラフィック削減
・レスポンス速度が早くなる

デメリット
・キャッシュの更新を考えた場合に処理が複雑になる可能性がある。
・NGINXサーバでディスク使用量の増加
・NGINXサーバでIO負荷がかかる

設定方法

現在の一時ファイルについての設定確認

# nginx -V 2>&1 | sed 's/ --/\n --/g' | fgrep proxy-temp-path
# fgrep -nr proxy_temp_path /etc/nginx/

設定

http {
  #proxy_temp_path /var/cache/nginx/proxy_temp;
  proxy_cache_path /var/cache/nginx/cache_1 levels=1:2 keys_zone=cache_zone_1:16m max_size=100m inactive=120m;

  upstream backend {
    server 192.168.0.101;
    server 192.168.0.102;
  }

  server {
    listen 80;
    server_name _;

    location / {
      proxy_pass http://backend;

      proxy_set_header Host $http_host;
      proxy_set_header X-Real-IP $remote_addr;
      proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
      proxy_set_header X-Forwarded-Proto $scheme;

      proxy_ignore_headers X-Accel-Expires Cache-Control Expires;

      proxy_cache cache_zone_1;
      proxy_cache_key "$scheme$proxy_host$request_uri";
      proxy_cache_valid 200 60m;
      proxy_cache_valid any 5m;

      add_header X-Cache-Status $upstream_cache_status;
    }
  }
}

proxy_cache_pathディレクティブ

/var/cache/nginx/cache_1：キャッシュファイル保存場所
キャッシュを行う場合、一旦レスポンスをproxy_temp_pathで指定した一時ファイルに保存してからのrenameとなるため同じデバイスになるよう注意
実ディレクトリは/var/cache/nginxまで存在していればcache_1は自動で作成されます。

levels=1:2：キャッシュを保存する階層
キャッシュファイル名はproxy_cache_keyをmd5したものになり、階層はファイル名の一部が利用されます。
md5が3858f62230ac3c915f300c664312c63fだった場合のファイルパス
/var/cache/nginx/cache_1/f/63/3858f62230ac3c915f300c664312c63f

keys_zone=cache_zone_1:16m：キャッシュゾーンの名前とメモリサイズ。
メモリサイズは1つのキャッシュにつき128バイト使われる(64bit環境)
この例だと16mになっているので約130000ファイル保存できます。
※よく使われるサイズの単位
g：ギガバイト
m：メガバイト
k：キロバイト

max_size=100m：キャッシュファイルの総容量
nginxは定期的にcache managerと呼ばれるプロセスを起動し、容量を監視しています。この時最大容量を超えていた場合は最も長い期間アクセスされなかったファイルから削除されます。
※最大容量を超えた瞬間ではなく、定期的にチェックされる＝一時的に最大容量を超えた状態になる。

inactive=120m：最後にアクセスされてからキャッシュファイルが削除されるまでの時間
120mの場合、最後にアクセスされてから120分アクセスがないと削除されます。
※よく使われる時間の単位
M：月
d：日
h：時間
m：分
s：秒

proxy_cacheディレクティブ

proxy_cache_pathで設定したキャッシュゾーンの名前を指定

proxy_cache_keyディレクティブ

キャッシュのキーとして使用する値を指定

proxy_cache_validディレクティブ

ステータスごとのキャッシュの有効期限の指定
ステータスを指定しない場合は200,301,302のレスポンスのみがキャッシュされる。anyを指定した場合は明示的に指定していないすべてのステータスコードに設定することができる。

proxy_ignore_headersディレクティブ

backendからのレスポンスで無視するヘッダーを指定する
Cache-Control及びExpiresを指定することでproxy_cache_validの設定が生きる
キャッシュ設定の優先順位
X-Accel-Expiresヘッダ > Cache-Controlヘッダ > proxy_cache_valid

※Set-Cookieヘッダがある場合、通常はキャッシュされませんがproxy_ignore_headersで無視してキャッシュする事も可能です。
ただしこの場合proxy_hide_headerも指定しておかないと他人にもcookieがセットされてしまいます。

add_headerディレクティブ

サンプルの場合X-Cache-Statusというレスポンスヘッダ名でキャッシュのステータスを返しています。

簡単にNGINXのキャッシュ設定について説明しました。
NGINXの設定は奥が深いので色々試してみましょう。

SolrCloudにおけるインデックスのバックアップ