SPLOUT BLOG - Part 74

みんなありがとう

あけおめことよろ。
年末ジャンボ宝くじを”あえて”当選しませんでしたマエダです。

今年も弊社ではえべっさんに商売繁盛を祈願しました。
そして毎年恒例となっている書き初めをしました。

昨年の書き初めの様子。

https://blog.splout.co.jp/4478/

今年の僕の書き初めはシンプルにこれです。

ほんとにいつも思うことですが毎朝起きてコーヒー淹れて飲めること、おいしくごはんがいただけること、仕事としてプログラミングさせてもらえていること、まわりにいる人たちが楽しそうに話しているとこを見かけること、幸せを感じる身の回りの様々なことがありがたいです。

お仕事をいただけるクライアントの皆様、弊社の関わったプロダクトを見ていただけたりご利用いただいているユーザーの方々、毎日出社してくれるスタッフのみんな、本当にありがとうございます。

新しい年、また気を引き締めて、感謝の気持ちを持って精一杯がんばります！

最後にひすいこたろうさんの言葉をご紹介です。

あなたがくだらないと
思っている今日は
昨日亡くなった人が
なんとかして生きたかった
なんとしてでも生きたかった。
今日なんです。

( ；∀；) ｲｲｺﾄﾊﾞﾀﾞﾅｰ

CSSで字詰めの調整をしよう！

デザインをする上で字詰めって大事ですよね。
でもWebページのテキストは、ブラウザの仕様で調整出来ないから諦めていたり…。
そんなことはないでしょうか？

字詰め

実は、CSSに字詰めのプロパティ「font-feature-settings」があります。
使い方は簡単で、「font-feature-settings : “palt”;」を指定するだけです。

    .kerning_sample{
        font-feature-settings : "palt";
    }

注)メイリオは、プロポーショナルメトリクスを含まないため変わりません。

　
例えばデフォルトだとこのような表示だったのが

デフォルト

カーニングとは、文字同士の間隔（アキ）を調整する技法のこと

　
font-feature-settings:”palt”;の指定をすると全体が引き締まった感じになります。

font-feature-settings:”palt”;の指定

カーニングとは、文字同士の間隔（アキ）を調整する技法のこと

　
場合によっては窮屈な感じがするので、「letter-spacing」を使って調整しましょう。

    .kerning_sample.spacing_sample{
        font-feature-settings : "palt";
        letter-spacing:2px
    }

font-feature-settings:”palt”;とletter-spacingの指定

カーニングとは、文字同士の間隔（アキ）を調整する技法のこと

デフォルトと比べて、カッコや句読点の間などが整ってると思います。
各ブラウザの対応もいつの間にか整っていました。
各ブラウザの対応状況

両端揃え

字詰めのプロパティ「font-feature-settings」を使ってブログの本文や説明文などの右端がガタついて気になった場合は、「text-align:justify;」を使ってみるのもいいかもしれません。
デフォルトだと右端がガタついていますが。

デフォルト

カーニング（英語: kerning）とは、主に欧文の組版において、プロポーショナルフォントの文字同士の間隔（アキ）を調整する技法のこと。カーニングを行わない場合は文字の間に不自然な空白を招いてしまう一方、適切にカーニングが施されたフォントでは字面間の空白の面積はほぼ均等になる。
DTPが普及した現在は組版ソフト上で行われることが多いが、以前は活字に特殊な処理を行うか、切り貼りによる文字詰め（もじつめ）と読ばれる作業が必要であった[1]。現在ではこの語や詰め文字（つめもじ）という語をカーニングの訳語として用いることもあるが[2]、カーニングと文字詰めを厳密に区別することもある[注 1]。英語では、活字を加工する工程の呼び名から派生して mortising と呼ばれることもある（原義：くり抜くこと、ほぞ穴を開けること）[4]。
引用 – Wikipedia

　
「text-align:justify;」を使うと右端がそろうと思います。

text-align:justify;とfont-feature-settings:”palt”;の指定

カーニング（英語: kerning）とは、主に欧文の組版において、プロポーショナルフォントの文字同士の間隔（アキ）を調整する技法のこと。カーニングを行わない場合は文字の間に不自然な空白を招いてしまう一方、適切にカーニングが施されたフォントでは字面間の空白の面積はほぼ均等になる。
DTPが普及した現在は組版ソフト上で行われることが多いが、以前は活字に特殊な処理を行うか、切り貼りによる文字詰め（もじつめ）と読ばれる作業が必要であった[1]。現在ではこの語や詰め文字（つめもじ）という語をカーニングの訳語として用いることもあるが[2]、カーニングと文字詰めを厳密に区別することもある[注 1]。英語では、活字を加工する工程の呼び名から派生して mortising と呼ばれることもある（原義：くり抜くこと、ほぞ穴を開けること）[4]。
引用 – Wikipedia

　
毎回、字詰めの調整や確認は大変ですが、この方法だと以外に簡単にできるかもしれません。
Webコンテンツを作る際に役立てていただければ幸いです。
　
　

新年の挨拶

新年あけましておめでとうございます。
本年もスプラウト株式会社をどうぞよろしくお願いいたします。

2018年から2019年へ

こんにちわ。
リエです。

2018年も残りわずかとなりました。
2019年は平成が終わり新しい元号が始まる年になりますね。
現段階では新元号は決まっていませんが、どんな元号になるのでしょうか。

2019年は亥年。
干支の中で最後の12番目に位置します。
植物の成長としては葉っぱも花も散ってしまい、種に生命を引き継いだ状態が「亥」だそうです。
十二支にはそれぞれ季節が割り当てられていて、亥は冬。
春の芽吹きまでじっとエネルギーを内にためているイメージが亥の意味です。
亥でエネルギーをしっかりとためると、それは「核」となり春には開花します。
なので弊社もしっかりとさらなる地盤作りに努めたいと思います。
参考サイト：https://mshabit.info/2019_eto/

2018年も弊社に関わってくださった皆さま。
本当にありがとうございました。

来年も何卒よろしくお願いいたします。

PDF をページ単位でインデックスする Solr の RequestHandlerを作成する

はじめに

Solr 6以降では PDF やワードなどのバイナリファイルをインデックスする機能(ExtractingRequstHandler)がサポートされています。
ファイル内に含まれるテキストをまとめて1つの文書として、メタデータ(作成日時、作成者等)と共にインデックスを作成してくれるのでこれはとても便利な機能ではありますが、用途によってはキーワードが何ページ目にヒットするのかを知りたいこともあります。そこで、自前の RequestHandler 作成の練習として PDF をページ単位でインデックスする ReqestHandler を作成してみました。

Apache Tika

Solr では PDF 等の各種フォーマットを扱うために Apache Tika を利用しています。
Tika では PDF 等を XHTML に変換した上で SAX パーサーにコンテンツハンドラを渡して XHML の要素毎の処理を実行させられます。それと同時にファイルに含まれるメタデータが Metadata クラスのオブジェクトに格納されます。
従って、Tika の呼び出し側は

ファイルに含まれる構造化コンテンツが XHTML に変換されたもの
ファイルのメタデータ

を扱うことができます。

Tika によって PDF から変換された XHTML がどんなフォーマットになっているかは、extractOnly=true オプションを指定することで見ることができます。

bin/post -c test -params "extractOnly=true&wt=json&indent=true" -out yes /tmp/test.pdf

XHTML の body 部分だけを抜粋すると以下のようになっています。

<body>
<div class="page">
<p/>
<p>テストドキュメント1ページ目です。</p>
<p/>
</div>
<div class="page">
<p/>
<p>2ページ目の文章です。</p>
<p/>
</div>
<div class="page">
<p/>
<p>これは3ページ目です。</p>
<p/>
</div>
</body>
</html>

ページ毎に

<div class="page">

に囲まれた構造になっていることが分かります。

ExtractingRequestHandler には capture という実行時パラメータがあり、これを指定することで特定の XHTML 要素(この場合div)を個別にインデックスすることができるのですが

文書IDはファイル全体で共通
同じ名前の要素が複数存在する場合は multivalued のフィールドに入れられる

という仕様のためページ番号との紐付けができそうもなかったのが、今回自前で実装してみようと思ったきっかけでした。

SolrがPDFを扱う仕組み

ExtractingRequestHander では以下のクラス構成で PDF 等のインデックス処理を実行しています。

ExtractingRequestHander
リクエストのエントリポイント(/solr/update/extract)。
- 設定の読み込み
- Tika のパーサーが生成する SAX イベントを処理するコンテンツハンドラ(SolrContentHandler)用のファクトリ(SolrContentHandlerFactory)を生成
- ExtractingDocumentLoader を生成して load メソッド(ファイル読み込みとインデックス処理のメイン)を実行
ExtractingDocumentLoader
実際にファイルを読み込んでインデックス処理を実行。
- メタデータ読み込み
- コンテンツの種類に対応したパーサーを生成
- ExtractingRequestHander から与えられたファクトリ(SolrContentHandlerFactory)を使ってコンテンツハンドラ(SolrContentHandler)オブジェクトを生成
- パーサーにコンテンツハンドラ(SolrContentHandler)を与えてパース処理を実行
- 生成されたメタデータオブジェクトとコンテンツ文字列をインデックスに投入
SolrContentHandler
Tika のパーサーが生成する SAX イベントを処理する。
基本的に XHTML に含まれるコンテンツ部分の文字列を結合して1つの大きな文字列を作っている。
SolrContentHandlerFactory
SolrContentHandler のファクトリメソッドを提供する。

ページ単位のインデックス処理を実装

上記の4クラスをそれぞれ継承したクラスを実装しました。(コードはこの記事の最後に)
実装の内容は以下の通りです。

設定の読み込みは親クラスに任せる
具象クラスの生成処理は上書き
SolrContentHandler のサブクラスで
```
<div class="page">
```
を認識してページ番号とページ毎のコンテンツとが対応付けされたテーブルを作成
ExtractingDocumentLoader のサブクラスでページ毎に文書IDを振ってインデックス投入

利用方法

4クラスをコンパイルして Jar ファイルを生成
contrib/extraction/lib に Jar ファイルをコピー

solrconfig.xml の

<requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >

の箇所を jp.co.splout.solr.plugin.MyExtractingRequestHandler に変更

Solr 再起動

実行例

投入

$ bin/post -c test -params "extractOnly=false&wt=json&indent=true&literal.id=testpdf1" -out yes test.pdf

検索結果

最後に

PDF をページ単位でインデックスする Solr のプラグインを作成しました。
PoC ということで最小限の実装しかしていませんが、ちゃんとするなら

せっかくなのでメタデータも有効に使いたい
ExtractingRequestHandler の実行時パラメータで共用できるものは共用したい
もっというなら ExtractingRequestHandler の1機能として統合?

ということも考えたいと思います。