PostgreSQL Deep Dive

Jupyter+Pandasを使ったPostgreSQLパフォーマンス分析

2019-12-01T12:11:00.000+09:00

本記事は PostgreSQL Advent Calendar 2019 の1日目の記事です。初日から遅れ気味ですすみません。。

久しぶりの記事ですが、最近はPostgreSQLをゴリゴリと触る感じでもなくなってきているため、本記事もゆるめの感じでお送りしたいと思います。

■PostgreSQLの「パフォーマンス分析」とは

PostgreSQLのパフォーマンス分析は、ざっくり言って、以下のようなステップで進められます。（PostgreSQLには限らないと思いますが）

パフォーマンスの状況から、課題について仮説を設定する。
パフォーマンスに関連する何の情報を収集するかを決める。
情報を収集する。
収集した情報を加工し、分析しやすい形式に整える。
分析し、仮説を検証、ないしは何かを発見する。
より深堀り、確証を高めるために、再度情報集をしたり、データを加工、分析したりする。
何か対策を打って、その結果を再度分析して、従前と比較する。

ある程度PostgreSQLに詳しい人は、「仮説の設定」や「どこから情報を取得するか」はさくっと決められると思いますが、情報を収集したり分析に適した形に加工したりするのはそれなりの手間と時間がかかるものです。

しかも、ある程度探索的な分析を行わざるを得ないため、データやグラフの形式を最初から決めておいたとしても、パフォーマンス分析がディープになればなるほど、それが現実的に役に立つかどうかは微妙になっていきます。（なので、最終的には、あらゆるグラフを網羅的に出力するレポートを作成する羽目になります）

そのため「Excel最強説」が流れるわけですが、再現可能性や繰り返しの作業についてはやはりいろいろと難がありますので、スクリプトで処理したくなってきます。

■「Jupyter + Pandas」を使ってパフォーマンス分析

探索的かつスクリプトでのデータ処理、と言えばJupyterの出番でしょう。数値データをあれこれ捏ねたり捻ったりするのであればPandasも使うと便利そうです。

というわけで、JupyterとPandasを使ってpg_stat_statementsのデータを分析してみようと思います。

今回の目的としては、

複数時点のpg_stat_statementsのデータから、パフォーマンスが悪化しているクエリを抽出したい。
それ以外にもいろいろな分析ができるようにしておきたい。

あたりを設定したいと思います。

実現するまでの全体の流れとしては、

pg_stat_statementsのデータを時間をおいて複数回取得する。
その時のタイムスタンプも取得する。
取得したデータをPandasのDataframeに読み込んで分析をする。

としたいと思います。

今回使用したJupyter Notebookは以下にあります。

pg_stat_statements_using_pandas.ipynb

■データ収集

まず、データを収集します。

収集するのは、pg_stat_statementsビューの内容と、タイムスタンプ（CURRENT_TIMESTAMP）の情報です。

psqlコマンドを使って、

select now();
select * from pg_stat_statements;

として取得します。

取得したデータは、psqlで取得するテキスト形式のまま、以下のようにPythonの変数としてノートブック上に貼り付けます。ぺたり。

ts1 = '2019-11-30 18:41:46.290788+09'

stmt1 = """
 userid | dbid  |  queryid   |                                                                           query                                                                            | calls |     total_time      |       min_time       |       max_time       |      mean_time       |     stddev_time      |  rows  | shared_blks_hit | shared_blks_read | shared_blks_dirtied | shared_blks_written | local_blks_hit | local_blks_read | local_blks_dirtied | local_blks_written | temp_blks_read | temp_blks_written | blk_read_time | blk_write_time
--------+-------+------------+------------------------------------------------------------------------------------------------------------------------------------------------------------+-------+---------------------+----------------------+----------------------+----------------------+----------------------+--------+-----------------+------------------+---------------------+---------------------+----------------+-----------------+--------------------+--------------------+----------------+-------------------+---------------+----------------
     10 | 12401 | 2111245140 | begin                                                                                                                                                      |     2 | 0.00213333060267016 | 0.000853332241068065 |   0.0012799983616021 |  0.00106666530133508 | 0.000213333060267016 |      0 |               0 |                0 |                   0 |                   0 |              0 |               0 |                  0 |                  0 |              0 |                 0 |             0 |              0
     10 | 12401 | 3571892116 | BEGIN;                                                                                                                                                     |  8000 |    6.89236451110624 | 0.000426666120534032 |   0.0277332978347121 | 0.000861545563888342 | 0.000442352042060711 |      0 |               0 |                0 |                   0 |                   0 |              0 |               0 |                  0 |                  0 |              0 |                 0 |             0 |              0
(snip)
     10 | 12401 |  927919161 | /*pga4dash*/                                                                                                                                              +|   228 |    54.0415308268406 |    0.139093155294095 |    0.753492368863101 |    0.237024258012459 |   0.0803793833218495 |    228 |            3034 |                1 |                   0 |                   0 |              0 |               0 |                  0 |                  0 |              0 |                 0 |             0 |              0
        |       |            | SELECT                                                                                                                                                    +|       |                     |                      |                      |                      |                      |        |                 |                  |                     |                     |                |                 |                    |                    |                |                   |               |
        |       |            |    (SELECT count(*) FROM pg_stat_activity WHERE datname = (SELECT datname FROM pg_database WHERE oid = ?)) AS "Total",                                    +|       |                     |                      |                      |                      |                      |        |                 |                  |                     |                     |                |                 |                    |                    |                |                   |               |
        |       |            |    (SELECT count(*) FROM pg_stat_activity WHERE state = ? AND datname = (SELECT datname FROM pg_database WHERE oid = ?))  AS "Active",                    +|       |                     |                      |                      |                      |                      |        |                 |                  |                     |                     |                |                 |                    |                    |                |                   |               |
        |       |            |    (SELECT count(*) FROM pg_stat_activity WHERE state = ? AND datname = (SELECT datname FROM pg_database WHERE oid = ?))  AS "Idle"                        |       |                     |                      |                      |                      |                      |        |                 |                  |                     |                     |                |                 |                    |                    |                |                   |               |
"""

何度か取得し、変数名を変えて貼り付けます。

■PandasのDataframeに変換する

次に、これらのテキストの出力をPandasのDataframeに変換します。（pgss_to_df関数の実装についてはノートブックを参照してください）

今回は、pgbenchを何度か実行し、その間に3回ほどpg_stat_statementsビューの情報を取得して使っています。

pgss1 = pgss_to_df(ts1, stmt1)
pgss2 = pgss_to_df(ts2, stmt2)
pgss3 = pgss_to_df(ts3, stmt3)

pgss = pd.concat([pgss1,pgss2,pgss3], ignore_index=True).sort_values(by=['queryid', 'datetime'])

すると以下のようなDataframeの形式になります。

■特定のクエリの平均処理時間の推移を見る

さて、Dataframeの準備ができたところで、実際にデータを見てみましょう。

まず、特定のクエリの平均処理時間の推移を見てみます。（find_by_query関数の実装についてはノートブックを参照してください）

find_by_query(pgss, 'UPDATE pgbench_tellers')

mean_timeのカラムを見ると、pgbench_tellersテーブルを更新するクエリの平均処理時間が、少しずつ長くなっていることが分かるかと思います。（13.18ミリ秒→13.30ミリ秒→13.31ミリ秒）

■平均処理時間が10%以上悪化したクエリを抽出する

次に、平均処理時間が10%以上悪化したクエリを抽出します。

まず、最初と最後のタイムスタンプのレコードを、それぞれmin/maxとして、queryidカラムとmean_timeカラムを抽出します。

# average query time at the start.
df_start = pgss[pgss.datetime == pgss['datetime'].min()].loc[:,['queryid', 'mean_time']]
# average query time at the end.
df_end = pgss[pgss.datetime == pgss['datetime'].max()].loc[:,['queryid', 'mean_time']]

次に、これらをqueryidで結合し、最後の処理時間が最初の処理時間に比べて10%以上長くなっているクエリを抽出します。

# join both using the queryid.
df = df_start.join(df_end.set_index('queryid'), on='queryid', lsuffix='_start', rsuffix='_end')

# select queries that slow down more than 10%
df = df[df.mean_time_end > df.mean_time_start * 1.1]

そして、最後にクエリ文字列と結合します。

# join query strings using the queryid
df.set_index('queryid').join(pgss.loc[:,['queryid','query']].set_index('queryid')).drop_duplicates()

これで、処理時間が10%以上伸びているクエリを抽出することができるようになりました。

■まとめ

以上、今回はJupyterとPandasを使って、PostgreSQLのパフォーマンス分析のためのデータ加工や簡単な分析を行ってみました。

今回着手するに当たって、最初はmatplotlibを使った可視化なども考えていたのですが、実際にパフォーマンス分析の実務を考えると、安直な可視化よりは基本的なデータ操作、オペレーションを関数にまとめておくことの方が、生産性の観点ではより役に立つのではないかと思うようになりました。（もちろん、トレンド分析などにおける可視化の役割は否定するものではありませんが）

実際のパフォーマンス分析の現場では、さまざまなデータの加工や集計作業が必要になります。一旦Pandasに取り込んでおけば、さまざまなデータ処理を簡単に行うことができ、いろいろ便利に使えるのではないかと思います。（Pandasを使いこなせる人であれば、という条件付きですが・・・私はPandasは初心者です・・・）

今後は、今回のような処理をうまくwrapするモジュールやクラスに整理して、Jupyterからimport一発で簡単に使えるようなものを目指してみようと思います。

では、また。

PostgreSQL Advent Calendar 2019、明日の担当は @yuina1056 さんです。お楽しみに。

tablelog extension を使ってDB移行に必要なテーブルの更新差分のログを取得する

2019-02-05T11:03:00.000+09:00

先日開催されたPostgreSQLアンカンファレンスで tablelog という extension の話をしたのですが、本エントリでは改めてその紹介をさせていただこうと思います。

第10回PostgreSQLアンカンファレンス - Togetter
https://togetter.com/li/1315752

■DB移行やメジャーバージョンアップの時、、、

皆さんは、

システム更改によるDB移行
PostgreSQLのバージョンアップ
特定のテーブルだけ別インスタンスにコピーしたい

といったことをしたい場合に、どのように対処しているでしょうか？

その方式は？
ツールは何を使う？
ダウンタイムは？
DBaaSの場合はどうする？

場合によって変わってくるかと思いますが、皆さんはどのように対処しているでしょうか？

もっともシンプルな方法は Dump & Restore だと思いますが、データベースの規模が大きくなってきた状態だと非常に時間がかかる場合があり、単純な Dump & Restore だと数日間データベースを停止しなければならない、といった見積もりになることもあります。

■更新差分だけを取得・適用して追い付きたい

そういう状況で次に考えるのは、「データベースを一旦コピーしておいて、後から更新差分だけ適用して追い付きたい」という方式です。

以下の図で言うと、

「インスタンスA」から「インスタンスB」に「テーブル1」を移行しようとする場合に、
① 稼働系のデータベースに通常の更新処理が行われている間、
② 更新処理をログとして取得しておき、
③ 更新が行われているかどうかに関わらずデータベースをコピーし、
④ 稼働系のデータベースへの更新を一時的に停止して、
⑤ 蓄積しておいた更新ログを新しいデータベースに適用して最新化し、
⑥ 新しいデータベースを稼働系にする切り替えを行う

という流れです。

この時必要とされる機能は、②の「更新処理をログとして取得しておく」という機能になります。

「更新処理のログ」というのは、要するにINSERT/UPDATE/DELETEに関する情報のことで、

どのようなレコードをINSERTしたのか？
どのレコードをどのようにUPDATEしたのか？
どのレコードをDELETEしたのか？

といった情報を蓄積できれば、後からいろいろ活用できるはず、と言うことになります。

■PostgreSQLで更新処理のログを取得するには

PostgreSQLで更新処理のログを取得するには、現時点では大きく2つの方法があります。「Logical Decoding」を使う方法と「テーブルトリガ」を使う方法です。

Logical Decodingを使う方法は新しくてPostgreSQLらしい洗練された方式ではあるのですが、バージョンや稼働環境を選ぶのと、PostgreSQLエンジニア以外に使ってもらうにはちょっとハードルが高くなるかもしれません。

なお、Logical Decodingについては、以前書いた以下のエントリを参考にしてください。

PostgreSQL Deep Dive: Logical Decodingを使ったCDC（Change Data Capture）の実現方法を考えてみる
http://pgsqldeepdive.blogspot.com/2016/12/logical-decoding-change-data-capture.html

テーブルトリガを使う方法は、昔からある伝統的な方法で特に新しくも無いのですが、誰でも簡単に理解できて（ツールさえあれば）使える方法であると言えるでしょう。

実際、以下のようなエントリを書いたことがありました。

PostgreSQL Deep Dive: tablelogでテーブルの更新差分を取得する
http://pgsqldeepdive.blogspot.com/2012/12/tablelog.html

但し、上記のエントリで使った tablelog は C 言語で実装されていてビルドやサーバへのデプロイが必要なため、今日的な DBaaS 環境では使うことができません。

そのため、改めて（DBaaS環境でも）テーブル更新差分を取得することができる extension を作ることにしました。

■tablelog pl/v8版

さて、先に要件だけ書き出してしまうと、今回は以下のような要件で開発しました。

DBaaS環境で利用できること（PLなんちゃら、で実装されていること）
モダンな言語で実装されていること
extension としてパッケージングされていること

というわけで、とりあえずは RDS for PostgreSQL と Azure Database for PostgreSQL をターゲットとして pl/v8 で実装することにしました。

実は、「extension としてパッケージング」と「DBaaS環境で利用できること」は背反する条件だったりするのですが（extensionはサーバにデプロイが必要なので）、この点については今回は別の方法で逃げることにしました。

pl/v8 版の tablelog extension は以下のレポジトリから取得できます。

snaga/tablelog: A PostgreSQL extension for capturing table modifications with table trigger
https://github.com/snaga/tablelog

なお、pl/pgsqlではなくpl/v8を使ったのは、トリガーの内部で受け取ったレコードのカラム名を取得する時に、連想配列のキーとして取得できるためです。

new_cols = Object.keys(NEW);
old_cols = Object.keys(OLD);

のようなカラム名の取り出し方は pl/pgsql では実現できないのですが、pl/v8（やpl/perl）だとこれが可能なので、トリガー関数を汎用的に作成することができるようになります。

■tablelogのインストール

詳細は README に記載していますが、スタンドアロンのPostgreSQLの場合は create extension コマンドで、

env USE_PGXS=1 make install
psql -c 'create extension plv8' dbname
psql -c 'create extension tablelog' dbname

DBaaS の場合はSQLファイルを編集して（\echo行をコメントアウトして） psql コマンドで流し込んでください。

vi tablelog--X.X.sql
psql -c 'create extension plv8' dbname
psql -f tablelog--X.X.sql dbname

■tablelogの使い方

まず、テーブルを作成して、tablelog_enable_logging() 関数でログ取得を有効化します。

testdb=# create table t (uid integer primary key, uname text);
CREATE TABLE
testdb=# select tablelog_enable_logging('public', 't');
 tablelog_enable_logging
-------------------------
 t
(1 row)

testdb=#

するとテーブルにトリガが設定されます。

testdb=# \d t
                 Table "public.t"
 Column |  Type   | Collation | Nullable | Default
--------+---------+-----------+----------+---------
 uid    | integer |           | not null |
 uname  | text    |           |          |
Indexes:
    "t_pkey" PRIMARY KEY, btree (uid)
Triggers:
    public_t_trigger AFTER INSERT OR DELETE OR UPDATE ON t FOR EACH ROW EXECUTE PROCEDURE tablelog_logging_trigger('uid')

testdb=#

この状態でテーブルのレコードを更新（INSERT/UPDATE/DELETE）すると、 __table_logs__ テーブルにログが記録されます。

testdb=# insert into t values ( 1, 'name 1');
INSERT 0 1
testdb=# select * from __table_logs__ ;
             ts             |  txid  |  dbuser  | schemaname | tablename | event  |  col_names  |  old_vals   |   new_vals   | key_names | key_vals | status
----------------------------+--------+----------+------------+-----------+--------+-------------+-------------+--------------+-----------+----------+--------
 2019-02-05 10:07:45.868346 | 244086 | postgres | public     | t         | INSERT | {uid,uname} |             | {1,"name 1"} | {uid}     | {1}      |      0
(1 row)

testdb=#

UPDATE/DELETEでも同様に記録されます。

testdb=# update t set uname = 'uname 11';
UPDATE 1
testdb=# delete from t;;
DELETE 1
testdb=# select * from __table_logs__ ;
             ts             |  txid  |  dbuser  | schemaname | tablename | event  |  col_names  |    old_vals    |   new_vals   | key_names | key_vals | status
----------------------------+--------+----------+------------+-----------+--------+-------------+----------------+--------------+-----------+----------+--------
 2019-02-05 10:07:45.868346 | 244086 | postgres | public     | t         | INSERT | {uid,uname} |                | {1,"name 1"} | {uid}     | {1}      |      0
 2019-02-05 10:28:54.124243 | 244088 | postgres | public     | t         | UPDATE | {uname}     | {"name 1"}     | {"uname 11"} | {uid}     | {1}      |      0
 2019-02-05 10:29:13.115856 | 244090 | postgres | public     | t         | DELETE | {uid,uname} | {1,"uname 11"} |              | {uid}     | {1}      |      0
(3 rows)

testdb=#

ログテーブルの構造の詳細については README を参照してください。

tablelog/README.md at master · snaga/tablelog
https://github.com/snaga/tablelog/blob/master/README.md

■まとめ

というわけで、本エントリではテーブルの更新差分をトリガーで取得するための汎用的なextension「tablelog」を紹介しました。

データベースで扱うデータ量が膨らむ一方の現在、アプリケーション更改におけるデータベース移行や、データベースのメジャーバージョンアップによるデータベース移行など、さまざまなところで「ダウンタイムを最小化してデータベースを移行したい」というニーズは高まる一方のように思います。

一方で、DBaaS環境に代表されるように、さまざまな制約の中でこういった移行作業を実現しなければならない現実もあります。

ぜひ、本エントリで紹介した tablelog のようなツールを使いこなして、DBaaS環境であっても、安全、確実、かつ最小のダウンタイムで実現していただければと思います。

では。

カラムナーDB拡張 cstore_fdw とその性能評価

2018-12-24T00:13:00.000+09:00

本エントリは PostgreSQL Advent Calendar 2018 の Day24 の記事です。

昨日の記事は @kabaome さんによる拡張統計情報とテーブル結合でした。

本エントリでは、PostgreSQLのカラムナーDB拡張である cstore_fdw について、その基本的な使い方から、 DBT-3 のスキーマとクエリを使ってベンチマークをしてみた結果を解説してみます。

とは言え、私自身、cstore_fdw をそれなりに使ったのはこれが初めてですので、あまり深く踏み込めていないところもあるかと思いますが、そういったところがありましたら、コメント欄や Twitter などで補足いただけると助かります。

■cstore_fdw とは

cstore_fdw は Citus Data によって開発されているオープンソースの PostgreSQL 拡張で、PostgreSQL 本体に手を加えなくてもカラムストア型（カラムナー型）の備えたテーブルを利用することができるようになるものです。

https://github.com/citusdata/cstore_fdw

cstore_fdw では、テーブルを外部テーブルとして定義することによって、 PostgreSQL のオリジナルのストレージ構造をバイパスして、独自のストレージフォーマットを持つテーブルを保持することができるようになっています。

■cstore_fdw のセットアップ

cstore_fdw のインストールの手順は、他のエクステンションや FDW と変わりません。Github から clone してきて、 make install します。

# git clone https://github.com/citusdata/cstore_fdw.git
# env USE_PGXS=1 make install

実際にデータベースに組み込む前に postgresql.conf の shared_prealod_libraries に cstore_fdw を設定しておく必要があります。

shared_preload_libraries = 'cstore_fdw'         # (change requires restart)

■cstore_fdw の基本的な使い方

それでは、 cstore_fdw を実際に使ってみましょう。ここでは cstore_fdw のドキュメントにあるサンプルをベースに進めます。

まず、Citus で提供しているサンプルの CSV ファイルをダウンロードして準備します。

$ wget http://examples.citusdata.com/customer_reviews_1998.csv.gz
$ gzip -d customer_reviews_1998.csv.gz

次に、データベースに cstore_fdw のエクステンションをインストールし、FDW 用のサーバの設定を行います。

CREATE EXTENSION cstore_fdw;
CREATE SERVER cstore_server FOREIGN DATA WRAPPER cstore_fdw;

そして、通常の PostgreSQL のテーブルとカラムストアのテーブルをそれぞれ作成します。

CREATE TABLE customer_reviews
(
    customer_id TEXT,
    review_date DATE,
    review_rating INTEGER,
    review_votes INTEGER,
    review_helpful_votes INTEGER,
    product_id CHAR(10),
    product_title TEXT,
    product_sales_rank BIGINT,
    product_group TEXT,
    product_category TEXT,
    product_subcategory TEXT,
    similar_product_ids CHAR(10)[]
);

CREATE FOREIGN TABLE customer_reviews_cstore
(
    customer_id TEXT,
    review_date DATE,
    review_rating INTEGER,
    review_votes INTEGER,
    review_helpful_votes INTEGER,
    product_id CHAR(10),
    product_title TEXT,
    product_sales_rank BIGINT,
    product_group TEXT,
    product_category TEXT,
    product_subcategory TEXT,
    similar_product_ids CHAR(10)[]
)
SERVER cstore_server
OPTIONS(filename '/tmp/customer_reviews.cstore',
        compression 'pglz');

先に言及したように、 cstore_fdw では FDW の仕組みを使うことによって PostgreSQL のストレージをバイパスしてカラムストアのテーブルを実現していますので、外部テーブル（FOREIGN TABLE）として作成します。

そして、そのカラムストアのテーブルの実体は、ここでは /tmp/customer_review.cstore となります。「compression 'pglz'」はカラムストアのテーブルを圧縮する、というオプションです。

テーブルの作成が終わったら、通常のテーブルと同じように COPY コマンドを使って先ほどの CSV ファイルをそれぞれのテーブルにロードします。

COPY customer_reviews FROM '/tmp/customer_reviews_1998.csv' WITH CSV;
COPY customer_reviews_cstore FROM '/tmp/customer_reviews_1998.csv' WITH CSV;

データのロードが終わったら、それぞれのテーブルに ANALYZE を実行します。

ANALYZE customer_reviews;
ANALYZE customer_reviews_cstore;

さて、おもむろに count(*) を実行して、実行コストと実行時間を見てみましょう。

通常のテーブルに対して SELECT COUNT(*) を EXPLAIN ANALYZE で実行したのが以下の結果です。

postgres=# explain analyze select count(*) from customer_reviews;
                                                                     QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------------------
 Finalize Aggregate  (cost=21832.40..21832.41 rows=1 width=8) (actual time=289.804..289.804 rows=1 loops=1)
   ->  Gather  (cost=21832.18..21832.39 rows=2 width=8) (actual time=284.375..290.013 rows=3 loops=1)
         Workers Planned: 2
         Workers Launched: 2
         ->  Partial Aggregate  (cost=20832.18..20832.19 rows=1 width=8) (actual time=275.572..275.573 rows=1 loops=3)
               ->  Parallel Seq Scan on customer_reviews  (cost=0.00..20217.75 rows=245775 width=0) (actual time=0.040..194.432 rows=196620 loops=3)
 Planning time: 0.060 ms
 Execution time: 290.072 ms
(8 rows)

同様に、カラムストアのテーブルに対して同じクエリを実行したものが以下の結果になります。

postgres=# explain analyze select count(*) from customer_reviews_cstore;
                                                               QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=7373.24..7373.25 rows=1 width=8) (actual time=185.477..185.477 rows=1 loops=1)
   ->  Foreign Scan on customer_reviews_cstore  (cost=0.00..5898.59 rows=589859 width=0) (actual time=0.058..97.149 rows=589859 loops=1)
         CStore File: /tmp/customer_reviews.cstore
         CStore File Size: 35505490
 Planning time: 0.074 ms
 Execution time: 185.650 ms
(6 rows)

見ると分かる通り、カラムストアのテーブルでは実行コストが 1/3 程度になり、実行時間も半分強になっています。

このように、カラムストアのテーブルでは（クエリの内容によっては）実行時間を短縮することができます。

■DBT-3 を使った性能評価

さて、最後に DBT-3 のスキーマとクエリを使って性能を比較してみます。（DBT-3 はデータ分析系のワークロードの性能評価するためのオープンソース実装のツールです。）

cstore_fdw のベンチマーク結果はネット上でもいくつか見つかるのですが、そういった情報は総じて「速くなったクエリだけを抜き出して性能をアピール」しているものが多く、そういった評価はユーザの立場から見て必ずしも十分な情報とは言えないように思います。

DBT-3 ベンチマークには 1 ～ 22 までの 22 種類のクエリがありますので、それらをすべて実行して比較することで、さまざまなクエリにおける性能を確認するとともに、全体の傾向などを把握したいと思います。

評価に使った環境は以下の通りです。

ThinkPad X Carbon
VirtualBox (VM 2GB RAM, 1CPU)
CentOS 7
PostgreSQL 10.6
DBT-3 (SF=1, DBサイズ約1GB)
DBT-3 のクエリ 22 種 + データロード

なお、 DBT-3 のデータベースの作成は以下のレポジトリのコードを、

https://github.com/snaga/dbt3-builddb

実行するクエリは、以下のレポジトリのコードを使いました。

https://github.com/snaga/db2-blu-config/tree/feature/pgsql/dbt3/q2

また、測定のルールは以下の通りです。

データローディングについては、通常/カラムストア、それぞれ 1 回だけ計測。
その他のクエリについては、 6 回計測し、最初の 1 回を除いた 5 回分を平均。
（時間の都合上）クエリの実行時間の上限を 10 分に設定し、それを越えたクエリは無効とする。

上記の環境、条件で実行時間を計測した上で、通常のテーブルの処理性能を「1」とした時に、カラムストアのテーブルの処理性能を「倍率」で示したものが以下のグラフです。

通常のテーブルに対するカラムストアのテーブルの処理性能の倍率ですので、グラフは高くなっている方が、よりカラムストアの方が高速であることを示しています。

これを見ると、50 倍近く速くなっているクエリもある一方で、10 倍以下だったりするクエリもあります。

なお、グレーアウトされているクエリの「17」と「20」は、通常テーブルおよびカラムストアの両方が 10 分のタイムアウトを越えたため、無効となっています。

上記のグラフをもう少し細かく見てみたのが以下のグラフです。（縦軸の最大値を10、つまり 10 倍に設定）

これを見ると、通常のテーブルと比べてカラムストアの方が遅くなっている（1倍を割っている）のは、

ローディング
クエリ5、クエリ7、クエリ16、クエリ19

であり、これら以外は通常テーブルとほぼ同じくらいか、あるいは高速化していることが分かります。

（データロードを除いた）クエリ全体を平均すると、カラムストアのテーブルの方が通常のテーブルよりも約 5.17 倍高速、という結果になりました。

■まとめ

以上、駆け足になりましたが、 cstore_fdw の使い方、および DBT-3 を使ったカラムナー型テーブルの性能を見てきました。

カラムナーテーブルは、あらゆるクエリが高速化されるものではありませんが、今回見てきたように、アナリティクス系のクエリでは高速化される可能性が高くなります。

ぜひ、PostgreSQL でアナリティクスの世界に挑戦してみていただければと思います。

では、また。

PostgreSQL Advent Calendar 2018、明日の担当は kitayama_t さんです。

機械学習ライブラリApache MADlibで決定木を使ってKaggleのTitanicを解く

2018-12-20T00:00:00.000+09:00

この記事は PostgreSQL Advent Calendar 2018 のDay20の記事です。昨日19日は U_ikki さんによるPostgreSQL 12の新機能の話でした。

以前から興味はあるのだけれどなかなか手を付けられなかったものの中に「Kaggleにチャレンジしてみる」というものがありました。

「趣味はKaggleを少々嗜んでおりまして」とか言ってみたい。

そんなことをずっと考えていたのですが、最近ようやくKaggleデビューしました。

本エントリではPostgreSQLで使える機械学習ライブラリであるApache MADlibを使って、Kaggleの「チュートリアル」と言われているTitanicの問題を解いてみます。

■Kaggle Titanicとは

Titanicは、Kaggle初心者のために準備されているチュートリアルの問題（Competition）のことで、以下のページから参照できます。

Titanic: Machine Learning from Disaster | Kaggle
https://www.kaggle.com/c/titanic

簡単に言うと、

「タイタニックで生き残った乗客と亡くなった乗客を記録した訓練用データ（トレーニングデータ）があり、その乗客の属性情報などを元に予測モデルを作成し、予測用データ（テストデータ）に掲載されている乗客が生き残るかどうかを予測し、その予測精度を競う」

というものです。

インターネット上には初心者向けに取り組み方を解説したページもいろいろとあり、私は以下のページを参考にまずは「Python + Jupyter」で実装してみました。

【Kaggle初心者入門編】タイタニック号で生き残るのは誰？
https://www.codexa.net/kaggle-titanic-beginner/

その結果は以下のJupyter Notebookにまとめてあります。

kaggle/Titanic.ipynb at master · snaga/kaggle
https://github.com/snaga/kaggle/blob/master/titanic/Titanic.ipynb

この内容を踏襲して、今回はPostgreSQLとApache MADlibでTitanicの予測を実装してみます。

■訓練用データと予測用データをPostgreSQLにロードする

Titanicの訓練用データと予測用データがCSVファイルで提供されていますので、まずはこれをPostgreSQLにロードします。

ほとんどのカラムが整数、文字列、浮動小数点のいずれかになるかと思います。

最初に訓練用データをロードします。このテーブルのSurvivedカラムが、その乗客が生存したかどうかを示すフラグになります。

titanic=# CREATE TABLE titanic_train (
titanic(#   PassengerId INTEGER,
titanic(#   Survived INTEGER,
titanic(#   Pclass INTEGER,
titanic(#   Name TEXT,
titanic(#   Sex TEXT,
titanic(#   Age DOUBLE PRECISION,
titanic(#   SibSp INTEGER,
titanic(#   Parch INTEGER,
titanic(#   Ticket TEXT,
titanic(#   Fare DOUBLE PRECISION,
titanic(#   Cabin TEXT,
titanic(#   Embarked TEXT
titanic(# );
CREATE TABLE
titanic=# \COPY titanic_train FROM 'train.csv' WITH (FORMAT CSV, DELIMITER ',', HEADER true);
COPY 891
titanic=# \d titanic_train
                  Table "public.titanic_train"
   Column    |       Type       | Collation | Nullable | Default
-------------+------------------+-----------+----------+---------
 passengerid | integer          |           |          |
 survived    | integer          |           |          |
 pclass      | integer          |           |          |
 name        | text             |           |          |
 sex         | text             |           |          |
 age         | double precision |           |          |
 sibsp       | integer          |           |          |
 parch       | integer          |           |          |
 ticket      | text             |           |          |
 fare        | double precision |           |          |
 cabin       | text             |           |          |
 embarked    | text             |           |          |

titanic=# SELECT * FROM titanic_train LIMIT 5;
 passengerid | survived | pclass |                        name                         |  sex   | age | sibsp | parch |      ticket      |  fare   | cabin | embarked
-------------+----------+--------+-----------------------------------------------------+--------+-----+-------+-------+------------------+---------+-------+----------
           1 |        0 |      3 | Braund, Mr. Owen Harris                             | male   |  22 |     1 |     0 | A/5 21171        |    7.25 |       | S
           2 |        1 |      1 | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female |  38 |     1 |     0 | PC 17599         | 71.2833 | C85   | C
           3 |        1 |      3 | Heikkinen, Miss. Laina                              | female |  26 |     0 |     0 | STON/O2. 3101282 |   7.925 |       | S
           4 |        1 |      1 | Futrelle, Mrs. Jacques Heath (Lily May Peel)        | female |  35 |     1 |     0 | 113803           |    53.1 | C123  | S
           5 |        0 |      3 | Allen, Mr. William Henry                            | male   |  35 |     0 |     0 | 373450           |    8.05 |       | S
(5 rows)

titanic=#

次に予測用データをロードします。こちらは作成した予測モデルを使って予測をするためのデータですので、訓練用データにあったSurvivedカラムはありません。このSurvivedフラグを予測するのが今回の目的になります。

titanic=# CREATE TABLE titanic_test (
titanic(#   PassengerId INTEGER,
titanic(#   Pclass INTEGER,
titanic(#   Name TEXT,
titanic(#   Sex TEXT,
titanic(#   Age DOUBLE PRECISION,
titanic(#   SibSp INTEGER,
titanic(#   Parch INTEGER,
titanic(#   Ticket TEXT,
titanic(#   Fare DOUBLE PRECISION,
titanic(#   Cabin TEXT,
titanic(#   Embarked TEXT
titanic(# );
CREATE TABLE
titanic=# \COPY titanic_test FROM 'test.csv' WITH (FORMAT CSV, DELIMITER ',', HEADER true);
COPY 418
titanic=# \d titanic_test
                   Table "public.titanic_test"
   Column    |       Type       | Collation | Nullable | Default
-------------+------------------+-----------+----------+---------
 passengerid | integer          |           |          |
 pclass      | integer          |           |          |
 name        | text             |           |          |
 sex         | text             |           |          |
 age         | double precision |           |          |
 sibsp       | integer          |           |          |
 parch       | integer          |           |          |
 ticket      | text             |           |          |
 fare        | double precision |           |          |
 cabin       | text             |           |          |
 embarked    | text             |           |          |

titanic=# SELECT * FROM titanic_test LIMIT 5;
 passengerid | pclass |                     name                     |  sex   | age  | sibsp | parch | ticket  |  fare   | cabin | embarked
-------------+--------+----------------------------------------------+--------+------+-------+-------+---------+---------+-------+----------
         892 |      3 | Kelly, Mr. James                             | male   | 34.5 |     0 |     0 | 330911  |  7.8292 |       | Q
         893 |      3 | Wilkes, Mrs. James (Ellen Needs)             | female |   47 |     1 |     0 | 363272  |       7 |       | S
         894 |      2 | Myles, Mr. Thomas Francis                    | male   |   62 |     0 |     0 | 240276  |  9.6875 |       | Q
         895 |      3 | Wirz, Mr. Albert                             | male   |   27 |     0 |     0 | 315154  |  8.6625 |       | S
         896 |      3 | Hirvonen, Mrs. Alexander (Helga E Lindqvist) | female |   22 |     1 |     1 | 3101298 | 12.2875 |       | S
(5 rows)

titanic=#

■訓練用データを使って予測モデルを作成する

ここまで出来たら、MADlibの決定木を使って予測モデルを作成してみます。

Pythonで実行する際に参考にしたこちらの入門記事ではデータの前処理を行っていますが、ここでは敢えて前処理無しでモデルを作成してみます。

MADlibの決定木の使い方は以下から参照できます。

MADlib: Decision Tree
http://madlib.apache.org/docs/latest/group__grp__decision__tree.html

学習用データからモデルを作成するためには tree_train() 関数を使います。

必須の引数は以下の通りです。

training_table_name 学習用テーブル名
output_table_name 作成したモデルの出力テーブル名
id_col_name 学習用データのレコードを特定する識別子のカラム名
dependent_variable 従属変数（結果）のカラム名
list_of_features 独立変数のカラム名のリスト

それでは、これらの引数を指定して予測モデルを作成します。作成したモデルは titanic_model というテーブルに保存されます。

titanic=# SELECT madlib.tree_train(
titanic(#   'titanic_train',
titanic(#   'titanic_model',
titanic(#   'passengerid',
titanic(#   'survived',
titanic(#   'pclass,sex,age,fare'
titanic(# );
 tree_train
------------

(1 row)

titanic=# \d titanic_model
                    Table "public.titanic_model"
       Column       |     Type      | Collation | Nullable | Default
--------------------+---------------+-----------+----------+---------
 pruning_cp         | integer       |           |          |
 tree               | madlib.bytea8 |           |          |
 cat_levels_in_text | text[]        |           |          |
 cat_n_levels       | integer[]     |           |          |
 tree_depth         | integer       |           |          |

titanic=#

■作成した予測モデルとテストデータを使って予測をする

次に、今作成した予測モデルと、先ほどロードしておいたテストデータを使って予測を行ってみます。

予測をするには tree_predict() 関数を使います。

必須の引数は

tree_model 予測モデルを保存したテーブル名
new_data_table テストデータを保存してあるテーブル名
output_table 予測結果を出力するテーブル名

となります。

titanic=# SELECT madlib.tree_predict(
titanic(#   'titanic_model',
titanic(#   'titanic_test',
titanic(#   'titanic_predict');
 tree_predict
--------------

(1 row)

titanic=#

予測結果のテーブルを見てみると、乗客IDと生存したかどうかを予測した出力（estimated_survived）がペアで出力されています。

titanic=# \d titanic_predict
                Table "public.titanic_predict"
       Column       |  Type   | Collation | Nullable | Default
--------------------+---------+-----------+----------+---------
 passengerid        | integer |           |          |
 estimated_survived | integer |           |          |

titanic=# select * from titanic_predict limit 5;
 passengerid | estimated_survived
-------------+--------------------
         892 |                  0
         893 |                  1
         894 |                  0
         895 |                  0
         896 |                  0
(5 rows)

titanic=#

■予測結果をKaggleに投稿して予測精度を確認する

それでは、最後に予測結果をCSVファイルにエクスポートして、Kaggleに投稿して予測精度を確認してみます。

CSVファイルのカラムヘッダが passengerid と survived である必要があるため、カラム名にエイリアスを指定してCSVファイルにエクスポートします。

titanic=# \copy (select passengerid, estimated_survived survived from titanic_predict) to 'titanic_predict.csv' with (format csv, header true)
COPY 418
titanic=#

エクスポートしたCSVファイルをKaggleのTitanicのページの「Submit Predictions」から投稿すると、自分の予測精度と予測精度のランキングが表示されます。

今回の場合だと、予測精度は79%弱、ランキングは3571位（本エントリ執筆時点）だったようです。

なお、今回Pythonで解くときに参考にした scikit-learn を使った入門記事では、チューニング前の予測精度は71%程度だったようですので、それと比べてもなかなか良い結果が出ているのではないかと思います。

今回は細かなパラメータのチューニングを行いませんでしたが、MADlibのマニュアルを見ていただくと、さまざまなパラメータを指定できることがお分かりいただけるかと思います。興味のある方は、ぜひモデル作成時のパラメータをチューニングして試してみていただければと思います。

■まとめ

以上、簡単にではありましたが、Apache MADlibを使ってTitanicを解く手順をご紹介しました。

データベースの中にあるデータに対して直接機械学習を活用できるというのは、さまざまな可能性があるように思います。

機械学習についてはさまざまな参考書が出ていますし、Pythonで使えるscikit-learnの解説などもたくさんあります。MADlibに興味を持った方は、そういった参考資料をMADlibのマニュアルと読み比べながら、いろいろと試してみていただければと思います。

では。

PostgreSQL Advent Calendar 2018、明日21日の担当は tom-sato さんです。contribモジュールについて書いていただけるようです。お楽しみに！

Python版dblinkでデータベース連携をもっと「自由」に

2018-12-01T00:00:00.000+09:00

本エントリは、 PostgreSQL Advent Calendar 2018 の Day1 のエントリです。

エントリを書くのは実に半年以上ぶりなのですが、今回は以前から試してみたかったdblinkネタをお届けします。

■なぜ今さら「dblink」？

PostgreSQLには、PostgreSQL、あるいは異種DBMSのデータベース連携を実現する手段として、dblinkとForeign Data Wrapper (FDW) が提供されています。

最近の方向性としては、FDWを充実させていくのが一般的な認識かと思います。

しかし、実際にデータベース連携を実現していく中で、FDWでは対応が困難なシーンがあります。

FDWを使って外部テーブルを実装する際に設定すべき項目が多い。
FDWは、VIEWのようにクエリを定義（固定）して使うため、アドホックな（もしくは動的に変わる）クエリのリモート実行ができない。
FDWのAPIは年々複雑化しており、もはや普通の開発者が気軽に拡張できるレベルでない。
そもそも、Cで開発できる or したい人はもうそんなにいない。

というわけで、このエントリではdblink（のサブセット）をPL/Pythonで再実装し、それを他のDBMSに対応させるために拡張する、ということを試みます。

PostgreSQLの強みのひとつは「拡張性の高さ」です。そのため、その「拡張性の高さ」を最大限に活かす実装を目指します。

なお、このPL/Pythonによるdblinkの再実装を、本エントリでは便宜上「dblink/py」と表記します。

■dblink/pyの実装方針

dblink/pyは以下の方針で実装します。

PostgreSQLのextensionとする。
APIはcontribのdblinkのサブセットとする。
各DBMSへの接続、操作はPythonのDatabase APIに対応したドライバを活用する。

https://www.python.org/dev/peps/pep-0249/

気軽に拡張を行えるようにシンプルな実装に留める。
まずはPostgreSQLへのリモート接続機能を実装し、その後SQLiteへ拡張する。

このようにすることで、PL/Pythonによるdblinkのリファレンス実装とすることにしました。

■実装するdblink/pyのAPI

さて、dblink/pyで再実装するAPIを定義します。今回実装するAPIは以下の通りです。

以下は、リモートデータベースに接続してカーソルを操作するためのAPIです。

dblink_connect
dblink_disconnect
dblink_get_connections
dblink_open
dblink_fetch
dblink_close

以下は、カーソル操作ではなく、リモートのデータベースに接続してひとつのSQLを実行して接続を閉じる、という処理を行うAPIです。

dblink
dblink_exec

まずは、これくらいを実装できれば、リモートデータベースへの最低限の操作はできるだろう、という目論見です。

■dblink/pyの初期実装と動作確認

dblink/pyのコードは以下のレポジトリにあります。

https://github.com/snaga/dblink_py

初期実装（PostgreSQL接続のみサポートしたもの）は「release-pg」というブランチになっていますので、まずはこれをチェックアウトしてインストールします。

[snaga@devvm06 temp]$ git clone https://github.com/snaga/dblink_py.git
Cloning into 'dblink_py'...
remote: Enumerating objects: 78, done.
remote: Counting objects: 100% (78/78), done.
remote: Compressing objects: 100% (35/35), done.
remote: Total 78 (delta 36), reused 64 (delta 25), pack-reused 0
Unpacking objects: 100% (78/78), done.
[snaga@devvm06 temp]$ cd dblink_py/
[snaga@devvm06 dblink_py]$ git checkout release-pg
Branch release-pg set up to track remote branch release-pg from origin.
Switched to a new branch 'release-pg'
[snaga@devvm06 dblink_py]$ sudo env USE_PGXS=1 PATH=/usr/pgsql-10/bin:$PATH make install
/usr/bin/mkdir -p '/usr/pgsql-10/share/extension'
/usr/bin/mkdir -p '/usr/pgsql-10/share/extension'
/usr/bin/install -c -m 644 .//dblink_py.control '/usr/pgsql-10/share/extension/'
/usr/bin/install -c -m 644 .//dblink_py--0.1.sql  '/usr/pgsql-10/share/extension/'
[snaga@devvm06 dblink_py]$

インストールが完了したら、動作確認として2つのデータベース「testdb」と「testdb2」を作成して、dblinkを使って「testdb」を介して「testdb2」のデータを読み書きしてみます。

まず、データベースを作成します。

[snaga@devvm06 dblink_py]$ createdb -U postgres testdb
[snaga@devvm06 dblink_py]$ createdb -U postgres testdb2

次に「testdb」に接続して、dblink/pyをインストールします。

[snaga@devvm06 dblink_py]$ psql -U postgres testdb
psql (10.6)
Type "help" for help.

testdb=# create language plpython2u;
CREATE LANGUAGE
testdb=# create extension dblink_py;
CREATE EXTENSION

次に、「testdb」から「testdb2」に接続していることを確認します。

testdb=# select * from dblink('postgresql://localhost/testdb2', 'select current_database()', true) as (dbname text);
 dbname
---------
 testdb2
(1 row)

次に、CREATE TABLE ASを使ってtestdb2上にテーブルを作成し、そのテーブルの内容を読んでみます。

testdb=# select dblink_exec('postgresql://localhost/testdb2', 'create table temp as select current_database(),''ほげほげ''', true);
 dblink_exec
-------------
 SELECT 1
(1 row)

testdb=# select * from dblink('postgresql://localhost/testdb2', 'select * from temp', true) as (db text, foo text);
   db    |   foo
---------+----------
 testdb2 | ほげほげ
(1 row)

最後に、このテーブルがtestdb上には作成されておらず、testdb2上に作成されていることを確認します。

testdb=# \d
Did not find any relations.
testdb=# \c testdb2
You are now connected to database "testdb2" as user "postgres".
testdb2=# \d
        List of relations
 Schema | Name | Type  |  Owner
--------+------+-------+----------
 public | temp | table | postgres
(1 row)

testdb2=# select * from temp;
 current_database | ?column?
------------------+----------
 testdb2          | ほげほげ
(1 row)

以上で動作確認は完了です。（カーソルの動作確認はここではしてませんが、リグレッションテストには含まれていますので、 sql/dblink_py.sql と expected/dblink_py.out を確認してみてください。）

■dblink/pyのSQLiteへの拡張

さて、動作確認ができたら、次はSQLiteに対応するようにdblink/pyを拡張してみます。

SQLite対応の拡張をしたコードは「release-sqlite」ブランチにあります。

dblink/py本体のコード（つまりテストコードを除く）に関しては、PostgreSQLのみ対応のバージョン（release-pgブランチ）と比べると、17行追加、2行削除されていることが分かります。

[snaga@devvm06 dblink_py]$ git checkout release-sqlite
Branch release-sqlite set up to track remote branch release-sqlite from origin.
Switched to a new branch 'release-sqlite'
[snaga@devvm06 dblink_py]$ git diff --stat release-pg dblink_py--0.1.sql
 dblink_py--0.1.sql | 19 +++++++++++++++++--
 1 file changed, 17 insertions(+), 2 deletions(-)
[snaga@devvm06 dblink_py]$

つまり、この「プラス17行、マイナス2行」だけでSQLite対応が完了したということです。詳細な差分は以下を参照してください。

https://github.com/snaga/dblink_py/compare/release-pg...release-sqlite?diff=unified&expand=1

さて、それではSQLiteのデータベースに読み書きしてみます。

まず、/tmp/testdb3.db というSQLiteデータベース（ファイル）を想定して、テーブルを作成します。

testdb=# select dblink_exec('sqlite:///tmp/testdb3.db', 'create table t ( uid integer, uname text)', true);
 dblink_exec
-------------
 OK
(1 row)

次にそのテーブルが空であることを確認して、1件INSERT、再度SELECTしてレコードが挿入されたことを確認します。

testdb=# select * from dblink('sqlite:///tmp/testdb3.db', 'select * from t', true) as (uid int, uname text);
 uid | uname
-----+-------
(0 rows)

testdb=# select  dblink_exec('sqlite:///tmp/testdb3.db', 'insert into t values (1, ''aaa'')', true);
 dblink_exec
-------------
 OK
(1 row)

testdb=# select * from dblink('sqlite:///tmp/testdb3.db', 'select * from t', true) as (uid int, uname text);
 uid | uname
-----+-------
   1 | aaa
(1 row)

最後に、testdbデータベースにはテーブルが「作成されていないこと」を確認して、dblink/pyを通して読み書きしていたSQLiteデータベース /tmp/testdb3.db の内容を確認します。

testdb=# \d
Did not find any relations.
testdb=# \q
[snaga@devvm06 dblink_py]$ sudo -u postgres sqlite3 /tmp/testdb3.db
SQLite version 3.7.17 2013-05-20 00:56:22
Enter ".help" for instructions
Enter SQL statements terminated with a ";"
sqlite> .tables
t
sqlite> select * from t;
1|aaa
sqlite>

以上で、dblink/pyのSQLite対応の拡張とその動作確認は完了です。

■まとめ

というわけで、今回はdblinkの機能のサブセットをPL/Pythonで再実装し、それを他のDBMSに拡張する、ということを試してみました。

本家のcontribのdblinkはコードが3,000行以上ある大規模なモジュールですが、今回作ったdblink/pyのコードは200行以下です。SQLite対応の拡張に至っては、わずか20行以下のコードの変更で実現できています。PostgreSQLの拡張性をうまく活かすことで、これくらいの労力でさまざまな拡張ができる、ということがお分かりいただけたかと思います。

そんなこんなで今回いろいろやってきましたが、お伝えしたかったことは

「FDWが無くてもdblinkを使ってVIEWを定義してしまえば見た目はFDWとだいたい一緒や」
「シンプルに行こう。Less is more.」

ということです。

PostgreSQL Advent Calendar 2018、明日の担当は・・・なんと、未定です（本エントリ執筆時点）。

Advent Calendarが初日で終わってしまうのか。それとも奇跡が起きて継続されるのか。ドキドキハラハラが止まらない。刮目せよ。

では。

この連休の読書にオススメの一冊「SQLパフォーマンス詳解」（割引コードあり）

2018-04-23T22:06:00.000+09:00

最近、久しぶりにPostgreSQLのクエリチューニングをしていたのですが、その過程で「この本はぜひもっと多くの人に読んでもらいたい」と改めて思い出した一冊がありました。

それは、「SQLパフォーマンス詳解（原題：SQL Performance Explained）」という本です。

SQLパフォーマンス詳解
http://sql-performance-explained.jp/

パフォーマンスチューニング、特にクエリチューニングについて説明する場合、その前提となる知識は広範なものになります。

そのため、自分が頑張って説明するよりも、優れたエキスパートのまとめたコンテンツを活用させてもらう方が、質・量ともに優れたインプットにしていただけるのではないか、と思うのです。

また、この「SQLパフォーマンス詳解」は非常に良い本であるにも関わらず、一般の出版社から出ているわけではないため、それほど積極的にプロモーションされているわけではなく、日本語版についても、（残念ながら）一般的な書籍ほど話題になることが無いように思います。

そういった理由により、本エントリではこの本について皆さんに知っていただくべくご紹介するとともに、著者のMarkus Winand氏から日本の読者の皆さんに「最大で半額」となる割引コードを提供いただけることになりましたので、その使い方についてご紹介したいと思います。

ゴールデンウィーク直前ですが、ぜひ連休中に読む一冊に加えていただければと思います。データベースのパフォーマンスについて、網羅的かつ本質的な理解が深まること、間違いのない一冊です。

■著者のMarkus Winand氏について

著者のMarkus Winand氏は、PostgreSQLを始めとするRDBMSのチューニングのエキスパート／コンサルタントとして有名な方で、「Use the Index, Luke!」というブログでお馴染みです。

winand.at: SQL at the highest level
https://winand.at/
SQL Indexing and Tuning e-Book for developers: Use The Index, Luke covers Oracle, MySQL, PostgreSQL, SQL Server, ...
https://use-the-index-luke.com/
SQLのインデックスとそのチューニングについてのオンラインブック
https://use-the-index-luke.com/ja

データベースのパフォーマンスチューニングに興味のある方であれば、一度は目にしたことのあるブログではないかと思います。

また、以前、UberがPostgreSQLからMySQLに移行したというニュースが流れた時に、「On Uber’s Choice of Databases」というブログを書かれたことでも有名です。

On Uber's Choice of Databases
https://use-the-index-luke.com/blog/2016-07-29/on-ubers-choice-of-databases

このエントリは、当ブログでも翻訳して紹介させていただきました。

PostgreSQL Deep Dive: 【翻訳】 On Uber’s Choice of Databases （データベースにおけるUberの選択について）はてなブックマーク - PostgreSQL Deep Dive: 【翻訳】 On Uber’s Choice of Databases （データベースにおけるUberの選択について）

また、PostgreSQLのグローバルカンファレンスである「pgcon」にも度々登壇しており、パフォーマンスチューニングのエキスパートの観点から、さまざまな知見をコミュニティで共有しています。私も一度、pgconで氏の講演を直接聞いたことがあります。

このように、著者のMarkus Winand氏は、データベースのパフォーマンスについて、理論と実践のいずれの面から見ても第一人者の一人であると言えます。

■「SQLパフォーマンス詳解」について

「SQLパフォーマンス詳解」は、データベースのパフォーマンスについて、主にインデックスの観点から解説した本です。（目次については後述します）

もともとは英語の書籍だったのですが、少し前に日本語に翻訳されて、現在は日本語版を読むことができます。

対応するRDBMSとしては、主にOracle、MySQL、PostgreSQL、SQL Serverについて記載されています。

個人的には、本書は特に

自分のWebアプリケーションのデータベースアクセスのパフォーマンスについて詳しく理解したい開発者の方
RDBMSのパフォーマンスやインデックスについて、網羅的かつ実戦的な知識を得たいDBエンジニア
システムの性能分析やデータベースのパフォーマンスチューニングを担う基盤系エンジニアやDBA
今まで使ってきたRDBMSと違うRDBMSを使うことになった（なりそうな）DBエンジニア

といった方々にオススメの一冊だと思います。

というか、データベースのパフォーマンスやインデックスの設計方法について考える時、個々のRDBMS製品に特化した書籍は多少はあるかもしれませんが、ここまで網羅的かつ横断的に解説されている本を、私は他に見たことがありません。

前述した通り、著者のMarkus Winand氏はRDBMSのパフォーマンスおよびチューニングのエキスパートです。そんなエキスパートの知見と経験が詰まった一冊になっていますので、ぜひ読んでみていただければと思います。

なお、私は最近、本書に書かれていた知見を活用してSQLチューニングをした結果、とあるクエリのパフォーマンスが10万倍に改善しました。

■「SQLパフォーマンス詳解」目次

以下が「SQLパフォーマンス詳解」の目次になります。

如何に網羅的かつ実戦的な情報がまとまっている一冊であるか、目次を見るだけでも理解していただけるのではないかと思います。

前書き ............................................................................................ vi
1章インデックスの内部構造 ............................................................... 1

インデックスリーフノード
検索ツリー (Bツリー)
遅いインデックスパートI

2章 where句 ...................................................................................... 9

等価演算子
関数
パラメータ化クエリ
範囲検索
部分インデックス
OracleにおけるNULL
処理しにくい条件

3章パフォーマンスとスケーラビリティ ............................................ 79

データ量がパフォーマンスに与える影響
システム負荷がパフォーマンスに与える影響
応答時間とスループット

4章結合処理 .................................................................................... 91

入れ子ループ
ハッシュ結合
ソートマージ

5章データのクラスタリング ........................................................... 111

フィルタ述語の意図的な使用
インデックスのみのスキャン
索引構成表

6章ソートとグルーピング .............................................................. 129

インデックスを使ったorder by
ASC、DESCとNULLS FIRST/LAST
インデックスを使ったgroup by

7章部分結果 .................................................................................. 143

最初のN行のみの選択
次ページの取得
ページネーションのための窓関数の使用

8章データの変更 ........................................................................... 159

挿入
削除
更新

A. 実行計画 ................................................................................. 165

Oracle
PostgreSQL
SQL Server
MySQL

索引 ............................................................................................ 193

■割引コードの使い方

著者のMarkus Winand氏に「かくかくしかじかにより、SQLパフォーマンス詳解を紹介したい（ダジャレではありません）」と相談したところ、日本語版の読者に割引コードを発行していただけることになりました。

割引コードは「GW2018INDEX」です。

この割引コードは、

PDF版は 50% OFF （9.95ユーロ → 5.00 ユーロ）
印刷版は 5% OFF （29.95ユーロ → 26.95ユーロ）
PDF+印刷版は 14% OFF （34.95ユーロ → 30.00 ユーロ）
有効なのは直販サイトのみ。
有効期限は 5/10 まで

となっています。

使い方は、書籍の直販サイトに行き、

SQLパフォーマンス詳解
http://sql-performance-explained.jp/

「割引コードを入力」をクリックして、割引コードを入力するだけです。

割引コードを入力すると、上記の割引価格が表示されますので、そのまま購入することができます。

■まとめ

本エントリでは、PostgreSQLのパフォーマンスチューニングにおいて参考にしていただきたい書籍、「SQLパフォーマンス詳解」についてご紹介してきました。

パフォーマンスチューニングに必要なのは、「RDBMSの仕組みについての知識」、「問題の合理的な切り分けのスキル」、「解決策の引き出しの多さ」なのではないかと思っています。そういった観点で見ると、本書はそれらを網羅的かつ実践的に得られる、他に類書が見当たらない非常に稀な一冊であると思います。

割引コードを使うと、特にPDF版は50% OFFという破格な値段になりますので、データベースのパフォーマンスチューニングに興味のある方には、これを機会にぜひ一度読んでみていただければと思います。

連休中に読み切れる分量だと思いますし、読んだ後、長期に渡って活用できる知見を得られる、絶対に後悔しない一冊になると思います。連休中の読書＆スキルアップに、ぜひ活用いただければと思います。

では、また。

PostgreSQLのデータをPandasのデータフレームとして読み書きする

2018-03-17T21:20:00.000+09:00

最近、JupyterやPandasを使ってデータを処理する機会が増えてきました。

とは言え、手元のデータはPostgreSQLに溜まっていたり、あるいはSQLで処理したい、ということがよくあります。

というわけで、Jupyterを使っている時に、「PostgreSQLからデータを取り出して、Pandasやら何やらでいろいろ処理した後、結果をPostgreSQLを書き出す」というユースケースを想定して、その方法を調べてみました。

■やりたいこと

やりたいことは、PostgreSQLのデータをJupyter上でPandasのデータフレームとして読み込み、集計やデータ分析をした結果をPostgreSQLに書き戻す、ということです。

データの加工や整形など（データ前処理）はPostgreSQLの方が高速に行えるのでSQLで、複雑なアルゴリズムの適用はPythonで行いたい、そしてその結果をPostgreSQLに書き戻して利用したい、というケースを想定しています。

あるいはPostgreSQLのデータをmatplotlibを使って可視化したい、といった場合にも使えるでしょう。（この場合は書き戻しは必要ありませんが）

■必要なもの

必要なものは以下の通りです。

PostgreSQL
Jupyter
pscycopg2
SQLAlchemy

PostgreSQLからDataFrameにデータを読み込むだけならpsycopg2だけで実現可能なのですが、DataFrameのデータをPostgreSQLに書き戻すにはSQLAlchemyが必要になります。

つまり、最初からSQLAlchemyを用意しておいた方がいいでしょう。

■PostgreSQLに接続する

まず、PostgreSQLに接続する必要があります。

Python（つまりJupyter上で）必要なモジュールのインポートは以下の通りです。

from sqlalchemy import create_engine
import pandas as pd

そして、SQLAlchemyのcreate_engine()関数を使ってPostgreSQLのエンジンオブジェクトを作成します。

engine = create_engine('postgresql://postgres:postgres@localhost:5432/postgres')

■PostgreSQLのデータをPandasに読み込む

PostgreSQLのデータをPandasのDataFrameに読み込むには、read_sql()メソッドを使います。

以下の例では、pg_databaseテーブルの内容をDataFrame dfに読み込んでいます。

df = pd.read_sql("SELECT * FROM pg_database", engine)

このメソッドを一回呼び出すだけで、PostgreSQLのデータをDataFrameに取り込んで扱うことができます。

■PandasのデータをPostgreSQLに書き出す

DataFrameを使っていろいろ処理した結果をPostgreSQLに書き出すには、DataFrameのto_sql()メソッドを使います。

pandas.DataFrame.to_sql — pandas 0.22.0 documentation
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_sql.html

Pandasのドキュメントにも書かれていますが、SQLAlchemyを使う場合には、SQLAlchemyによってサポートされているDBMSで書き出しを行うことができます。そうでない場合には、SQLiteのみがサポートされます。よって、PostgreSQLに書き出したい場合には、SQLAlchemyを使う必要があります。

以下の例では、DataFrame dfの内容をt1テーブルに書き出しています。その際、既にt1テーブルが存在した場合には、そのテーブルを置き換えるように指定しています。（if_exists引数）

df.to_sql('t1', engine, if_exists='replace')

その結果は以下の通りです。

to_sql()メソッドにはif_exists以外にもいろいろなオプションがありますので、ぜひ確認してみていただければと思います。

■まとめ

以上、非常に簡単ではありましたが、Python（というかJupyter）からPandas（DataFrame）を介してPostgreSQLのデータを読み書きする方法をご紹介しました。

データベースエンジニアの目の前には、さまざまなデータ、多くのデータが横たわっています。

私自身は、PL/PythonやMADlibを始めとするIn-Database処理が好みではありますが、一方でPandasで扱うデータの前処理をPostgreSQLで実現できたら便利だなぁ、と感じることも多々あるのが現実だったりします。

ぜひ、さまざまなツールを知ることで、それらのデータを活用していただければと思います。

では、また。

Oracle対応アプリケーションのDockernize事始め

2017-12-06T00:00:00.000+09:00

本エントリはJPOUG Advent Calendar 2017 Day6の記事です。

普段はPostgreSQLのブログなのですが、今回はスピンオフ企画（番外編）として、先日のJPOUGのイベント「JPOUG in 15 minutes #6」で発表した「Oracle対応アプリケーションのDockernize事始め」の内容をブログエントリとしてお送りします。（Oracleネタを書くブログが無いので・・・）

なお、資料は公開していますので、興味のある方はそちらも併せてどうぞ。

Oracle対応アプリケーションのDockerize事始め from Satoshi Nagayasu

■なぜ今さら「Docker」か、という前口上

既にDockerに十分触れている方、慣れている方には釈迦に説法になるかと思いますが、なぜ最近になってDockerに着目して使うようになったのか、ということからお話しようと思います。

私がDockerを使い始めたのは、実は先日のJPOUGのイベントでのセッションが決まってからです。なので、片手間に触り始めてからまだ数ヶ月と言ったところです。

ずっと興味は持っていたのですが、自分が普段使っている環境が長いことRHEL6/CentOS6系だったこと、Dockerでどうしても使ってみたいことが無かったので、なかなか手を動かして試してみるところまで到達しませんでした。

そういう状況ではあったのですが、春先に自分が開発しているツールをオープンソースとして公開したあたりから、少し状況が変わってきました。

Hecatoncheir: The Data Stewardship Studio 0.8を公開しました
http://pgsqldeepdive.blogspot.jp/2017/05/hecatoncheir-data-stewardship-studio.html

オープンソースとして開発する際、さまざまなフレームワークやライブラリに依存した開発をすることがあります。そうなると、動作させるためにはそれらを整えた環境を構築する必要があります。

しかし、環境構築も、自分が慣れている技術スタックならまだしも、不慣れなスタックを整備するのは技術的のみならず心理的障壁も高くなります。また、特にデータベースエンジニアや基盤系エンジニアの方だと、「不要なものは自分の環境に入れたくない（環境を汚したくない）」という心理も働くと思われ、そうなると公開したツールを試してもらうのもなかなか難しくなります。（簡単に試せないものを紹介する側も気が引けますし）

というわけで、環境をカプセル化して簡単に試してもらうにはDocker化してみるのがいいのでは、と考えたのが、今回Dockerに触ってみる動機になったのでした。

■HecatoncheirのDocker化

というわけで、HecatoncheirのDocker化を試みます。

Hecatoncheirはデータベースから情報を収集してレポジトリに保存するクライアントツールと、レポジトリの情報を公開するサーバから構成されています。

そして、それらのツールはさまざまなPythonライブラリと、Oracle DatabaseのクライアントライブラリであるOracle Instant Clientに依存しています。

これらをDocker化し、コマンド一発で数分以内に利用できるようにするところまでを目指します。

目標は以下の通りです。

コマンド一発で数分で利用可能に
収集したレポジトリのデータは残せるようにする（永続化可能にする）

■Dockerイメージ化する

イベントの時とは説明の順序が違いますが、Dockerイメージ化してみます。イメージ化するためにはDockerfileと呼ばれる定義ファイルを作成します。このファイルで、Dockerイメージに何を含めるかを決めます。

プレゼンの際には抜粋したDockerfileでしたが、全体は以下のようになっています。

FROM centos:7
MAINTAINER Satoshi Nagayasu <snaga@uptime.jp>

#ADD oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm /tmp
#ADD oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm /tmp

ENV ORACLE_HOME=/usr/lib/oracle/12.2/client64
ENV LD_LIBRARY_PATH=$ORACLE_HOME/lib
ENV LANG=C

# pip
RUN yum install -y gcc python-devel
RUN curl -o get-pip.py https://bootstrap.pypa.io/get-pip.py
RUN python get-pip.py; rm get-pip.py

# Oracle support
RUN yum install -y libaio unzip
RUN rpm -ivh https://s3-ap-northeast-1.amazonaws.com/uptime-dev01/oracle/oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm
RUN rpm -ivh https://s3-ap-northeast-1.amazonaws.com/uptime-dev01/oracle/oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm
#RUN rpm -ivh /tmp/oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm
#RUN rpm -ivh /tmp/oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm

# PostgreSQL support
RUN rpm -ivh https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-7-x86_64/pgdg-centos10-10-2.noarch.rpm
RUN yum install -y postgresql10-devel

# MySQL support
RUN rpm -ivh https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm
RUN yum install -y mysql-community-devel

# Hecatoncheir
RUN curl -O https://codeload.github.com/snaga/Hecatoncheir/zip/develop; unzip develop
RUN cd Hecatoncheir-develop; pip install -r requirements.txt; pip install .

また、Dockerfileの作成・更新は、以下のような流れで行っていました。

今回はベースイメージをCentOSにしましたので、Dockerfileは最低限以下の内容から始まります。

FROM centos:7
MAINTAINER Satoshi Nagayasu <snaga@uptime.jp>

docker buildでイメージが作成できて、docker run /bin/bash で起動や動作に問題がないことが確認できたら、少しずつコンテンツを追加していきます。

今回イメージを作成する際、最初はOracle Instant ClientのRPMファイルをローカルに置いてrpm -iしていたのですが、Githubで管理する場合には50MB以上のファイルは置けないため、s3にファイルを置いてHTTP経由で直接rpm -iするように切り替えました。

#ADD oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm /tmp
#ADD oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm /tmp

# Oracle support
RUN rpm -ivh https://s3-ap-northeast-1.amazonaws.com/uptime-dev01/oracle/oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm
RUN rpm -ivh https://s3-ap-northeast-1.amazonaws.com/uptime-dev01/oracle/oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm
#RUN rpm -ivh /tmp/oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm
#RUN rpm -ivh /tmp/oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm

の部分になります。

■Dockerイメージを使ってデータベースプロファイリングをする

というわけで、作成したDockerイメージを使ってみます。

今回、DockerイメージはDocker Hubに登録してありますので、まずはそちらをdocker pullで取得します。

Pulling a docker image from Satoshi Nagayasu on Vimeo.

次に、クライアントを動かして、Oracle Databaseに接続してデータベースのプロファイリングを行います。

背景が水色の部分はDockerのコマンドとオプション、白い部分はHecatoncheirのコマンドとオプションです。

最終的には、ホストの /tmp/docker というディレクトリ（Dockerコンテナ内では /docker ディレクトリ）に repo.db というファイルが作成され、プロファイリングした結果がそこに保存されます。

Running data profiling from Satoshi Nagayasu on Vimeo.

■プロファイリングしたデータを閲覧する

最後にサーバを起動して、レポジトリの情報を閲覧可能にします。

ブラウザ経由で、データの状態を確認することができます。

Running the repository server from Satoshi Nagayasu on Vimeo.

■まとめ

以上、今回はOracle Databaseに対応したツールをDocker化する方法についてご紹介しました。

冒頭でも紹介しましたが、オープンソースのツールを使う／使ってもらう場合、依存関係が多くなり、環境構築がハードルになるケースが多々あります（慣れている人であっても）。

特に、HecatoncheirのようにさまざまなDBMSに対応したツールを開発する場合、クライアントライブラリなども含めると依存関係が多岐に渡るため、Dockerは非常に便利であると感じました。

ぜひ、データベースエンジニアにも新しいツールやソフトウェアを積極的に試してみていただければと思います。もちろん、Hecatoncheirも使ってみていただけると嬉しいです。

では、また。

Dockerを使ってデータ分析用にPostgreSQLを使ってみる

2017-12-03T08:27:00.001+09:00

これは PostgreSQL Advent Calendar 2017 の Day3 の記事です。昨日はMorihayaさんの「DB Management tool新時代の幕開けか!? OmniDBを評価させていただく！」でした。

さて、最近ようやくDockerに触り始めたのですが、使い方が少しずつ分かってきたのでいろいろと遊んでいます。

今回は、In-Database AnalyticsとDockerです。

■全部入りのDockerイメージを作ってみた

最近、In-Database Analyticsがマイブームになっていますので、ボチボチと遊んでいます。

いろいろ遊んではいるのですが、いろいろセットアップしたり変更したり、アレが足りない、コレが動かない、みたいなことをやっているのが面倒になってきていました。面倒さが原因で手が動かないことも。。

これはいかん。

というわけで、データ分析に使えそうなExtensionをいろいろと入れ込んだ（自分的な）全部入りのPostgreSQLのDockerイメージを作ってみました。

CentOS 7

Python 2.7

PostgreSQL 10.1

PL/Python
postgres_fdw

PL/R 8.3.0.17

R 3.4.2

Apache MADlib 1.13-dev
pg_bigm 1.2
mecab 0.996

mecab-ipadic 2.7.0
mecab-python 0.993

numpy / scipy / scikit-learn / pandas / matplotlib

おかげで1.7GBもあるイメージになってしまいましたが、まぁそこはご愛敬、ということで。

とりあえず、Rのグラフィック関連のパッケージはゴリゴリと削ってたのですが、numpyとかscipyとかが案外大きいんですね。。無理して削った関係上、動かない機能があったらすみません。連絡いただければ修正する所存です。。

■Dockerコンテナを起動してPostgreSQLに接続する

まぁ何はともあれ、まずは使ってみましょう。起動するコマンドは以下です。

docker pull uptimejp/postgres4analytics

docker imagesを叩くとこんな感じになります。

# docker images
REPOSITORY                              TAG                 IMAGE ID            CREATED             SIZE
docker.io/uptimejp/postgres4analytics   latest              3421a544c9a5        7 hours ago         1.722 GB
docker.io/centos                        7                   196e0ce0c9fb        11 weeks ago        196.6 MB
#

docker run -p 5432:5432 -ti uptimejp/postgres4analytics

簡単ですねー。イメージが大きい関係上、pullに少し時間がかかります。

Dockerコンテナを起動するとPostgreSQLのバックエンドが起動している様子が分かります。

# docker run -p 5432:5432 -ti uptimejp/postgres4analytics
2017-12-02 00:02:07.922 UTC [5] LOG:  listening on IPv4 address "0.0.0.0", port 5432
2017-12-02 00:02:07.922 UTC [5] LOG:  listening on IPv6 address "::", port 5432
2017-12-02 00:02:07.939 UTC [5] LOG:  listening on Unix socket "/var/run/postgresql/.s.PGSQL.5432"
2017-12-02 00:02:07.949 UTC [5] LOG:  listening on Unix socket "/tmp/.s.PGSQL.5432"
2017-12-02 00:02:07.961 UTC [5] LOG:  redirecting log output to logging collector process
2017-12-02 00:02:07.961 UTC [5] HINT:  Future log output will appear in directory "log".

ここで別のターミナルからPostgreSQLに接続します。

ユーザ postgres で、データベース template2 に接続します。

この template2 データベースが全部入りをセットアップしたデータベースになります。（template1 には MADlib をうまくセットアップできなかったためです・・・）もちろん postgres はスーパーユーザーですが、その辺は気にしない方向で。

$ psql -h localhost -U postgres template2
psql (10.1)
Type "help" for help.

template2=# select version();
                                                 version
---------------------------------------------------------------------------------------------------------
 PostgreSQL 10.1 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-16), 64-bit
(1 row)

template2=#

■各種Extensionを見てみる

というわけで、セットアップされたExtension諸々を見てみます。

template2=# \dx
                                      List of installed extensions
     Name     | Version  |   Schema   |                           Description
--------------+----------+------------+------------------------------------------------------------------
 pg_bigm      | 1.2      | public     | text similarity measurement and index searching based on bigrams
 plpgsql      | 1.0      | pg_catalog | PL/pgSQL procedural language
 plpythonu    | 1.0      | pg_catalog | PL/PythonU untrusted procedural language
 plr          | 8.3.0.17 | public     | load R interpreter and execute R script from within a database
 postgres_fdw | 1.0      | public     | foreign-data wrapper for remote PostgreSQL servers
(5 rows)

template2=#

こんな感じで、いくつかのExtensionがあらかじめセットアップされています。

まず PL/R。

template2=# select r_version();
                    r_version
-------------------------------------------------
 (platform,x86_64-redhat-linux-gnu)
 (arch,x86_64)
 (os,linux-gnu)
 (system,"x86_64, linux-gnu")
 (status,"")
 (major,3)
 (minor,4.2)
 (year,2017)
 (month,09)
 (day,28)
 ("svn rev",73368)
 (language,R)
 (version.string,"R version 3.4.2 (2017-09-28)")
 (nickname,"Short Summer")
(14 rows)

template2=#

おぉ、動いてるっぽい。

続いてApache MADlib。

template2=# select madlib.version();
                                                                                                              version

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
---------------------------------------
 MADlib version: 1.13-dev, git revision: unknown, cmake configuration time: Sat Nov 25 07:43:17 UTC 2017, build type: RelWithDebInfo, build system: Linux-3.10.0-693.2.1.el7.x86_64, C compil
er: gcc 4.8.5, C++ compiler: g++ 4.8.5
(1 row)

template2=#

1.13-devが入ってますね。

次。なぜか勢いで入れてしまったpg_bigm。

template2=# select show_bigm('進捗は如何ですか。');
                       show_bigm
-------------------------------------------------------
 {"。 ",か。,すか,です,は如,何で,如何,捗は,進捗," 進"}
(1 row)

template2=#

きちんと動いてます。ところで進捗は如何ですか。

次、みんな大好きPythonもPostgreSQLで動きます。ここでは以下のようにMecabを使って形態素解析をするUDFを作って動作確認して見ます。

CREATE OR REPLACE FUNCTION mecab_tokenize(string text)
  RETURNS text[]
AS $$
    import MeCab
    import plpy

    a = []
    m =  MeCab.Tagger("-Ochasen")
    """
    Mecabに渡すためにはunicodeではなくutf-8である必要がある。
    Mecabから戻ってきたらunicodeに戻す。

    また、Mecabはエンコード済みのutf-8文字列へのポインタを返すので、
    on-the-flyでutf-8に変換するのではなく、変数として保持しておく
    必要がある。（でないとメモリ領域がGCで回収されてデータが壊れる）

    参照:
    http://shogo82148.github.io/blog/2012/12/15/mecab-python/
    """
    enc_string = string
    node = m.parseToNode(enc_string)
    while node:
        n = node.surface.decode('utf-8')
        if n:
            a.append(n)
        node = node.next
    return a
$$ LANGUAGE plpythonu;

動かしてみます。

template2=# select mecab_tokenize('進捗は如何ですか。');
      mecab_tokenize
---------------------------
 {進捗,は,如何,です,か,。}
(1 row)

template2=#

動いてます。進捗は如何ですか。

こんな感じで、このDockerイメージを使うと、「聞いたことはあるけれど使ったことは無い」ものが一瞬（？）で使えるようになります。

あと、postgres_fdwなどもセットアップされていますので、リモートにあるPostgreSQLのテーブルをそのまま取ってくる、みたいなことも簡単に（？）できます。できるはずです。

■Dockerfile

ちなみに、Dockerfileは以下から入手できます。

postgres4analytics
https://github.com/snaga/postgres4analytics

こういうの追加したい、みたいなのがあれば、forkしていじってみるなり、プルリクしてみるなりして頂ければと思います。

■まとめ

そんなわけで、全部入りPostgreSQL（しかも最新版）を作ってみた、というお話でした。自分も、今後はこれを使っていこうと思っています。

Happy In-Database Analytics Lifeを！

では。

PostgreSQL Advent Calendar 2017、明日はvidaisukiさんです。

[翻訳] たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか（How a single PostgreSQL config change improved slow query performance by 50x）

2017-11-28T18:28:00.001+09:00

先日、「How a single PostgreSQL config change improved slow query performance by 50x」というPostgreSQLのSSD環境でのチューニングの記事を見つけたのですが、これをTweetしたらRTやLikeを比較的たくさん頂きました。

How a single PostgreSQL config change improved slow query performance by 50x
https://amplitude.engineering/how-a-single-postgresql-config-change-improved-slow-query-performance-by-50x-85593b8991b0

How a single PostgreSQL config change improved slow query performance by 50x https://t.co/PdzosNoeYN
— Satoshi Nagayasu 🦃 (@snaga) 2017年11月27日

日本でも興味を持つ方がいるかもと思い、オリジナルの著者の方に許可をもらったので翻訳したものを対訳形式で掲載します。

オリジナル版と併せて、よろしければご覧ください。

■How a single PostgreSQL config change improved slow query performance by 50x
■たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか

Pavan Patibandla

At Amplitude, our goal is to provide easy-to-use interactive product analytics, so everyone can find answers to their product questions. In order to provide a great user experience, Amplitude needs to provide these answers quickly. So when one of our customers complained about how long it took to load the event properties dropdown in the Amplitude UI, we started digging into it.

Amplitudeでの我々のゴールは、簡単に使えるインタラクティブなプロダクト分析を提供することです。それによって、すべての人が自分たちのプロダクトについての疑問の答えを得ることができるようになります。素晴らしいユーザエクスペリエンスを提供するために、Amplitudeは答えを迅速に提供する必要があります。ある顧客から Amplitude UI でイベントプロパティのドロップダウンリストのロードに時間がかかると苦情が来たため、その調査を開始しました。

By tracking latency at different levels we figured one particular PostgreSQL query was taking 20 sec to finish. This was a surprise for us, as both tables have indexes on the joined column.

さまざまなレベルで遅延を追跡した結果、ある特定のPostgreSQLのクエリが完了するのに20秒もかかっていることを突き止めました。これは我々にとって驚くべきことでした。というのも、JOINしている両方のテーブルとも、結合しているカラムにインデックスを作成してあったからです。

Slow Query

The PostgreSQL execution plan for this query was unexpected. Even though both tables have Indexes, PostgreSQL decided to do a Hash Join with a sequential scan on the large table. The sequential scan on a large table contributed to most of the query time.

このクエリの実行プランは想定外のものでした。両方のテーブルにインデックスがあるにも関わらず、PostgreSQLは大きいテーブルに対してシーケンシャルスキャンとハッシュ結合を選択していました。大きなテーブルへのシーケンシャルスキャンは、クエリの実行時間の大部分を占めていました。

Slow Query Execution Plan

I initially suspected it could be due to fragmentation. But after inspecting the data, I realized this table was append only and there weren’t many deletions happening on this table. Since reclaiming space using vacuum is not going help much here, I started exploring more. Next, I tried the same query on another customer with good response times. To my surprise the query execution plan looked completely different!

最初に私はフラグメンテーションを疑いました。しかし、データを調査した結果、当該テーブルは追記のみであり、削除はあまり発生していませんでした。領域を解放するVACUUMは助けにならなかったため、さらに深い調査を始めました。次に、同じクエリをレスポンスタイムの良い他の顧客のデータで試してみました。すると驚いたことに、クエリの実行プランは全く違ったものになったのです！

Execution plan of similar query on another App

Interestingly, app A only accessed 10x more data than app B, but the response time was 3000x longer.

興味深いことに、アプリAはアプリBと比べて10倍のデータにアクセスしているだけなのに、レスポンスタイムは3,000倍も長くかかっていました。

To see the alternative query plans PostgreSQL considered before picking Hash Join, I disabled hash join and reran the query.

PostgreSQLがハッシュ結合を選択する前に作成する異なるクエリプランを見てみるために、ハッシュ結合を無効にしてクエリを再度実行してみました。

Alternative execution plan for Slow Query

There you go! The same query finished 50x faster when using a Nested Loop instead of a Hash Join. So why did PostgreSQL choose a worse plan for app A?

やりました！ハッシュ結合ではなくネステッドループ結合を使った場合に、同じクエリが50倍も速くなりました。なぜ、PostgreSQLはアプリAで性能の悪い実行プランを選択したのでしょうか？

Looking more closely at the estimated cost and actual run time for both plans, estimated cost to actual runtime ratios were very different. The main culprit for this discrepancy was the sequential scan cost estimation. PostgreSQL estimated that a sequential scan would be better than 4000+ index scans, but in reality index scans were 50x faster.

両方の推定コスト（estimated cost）と実行時間（actual run time）を詳細に見てみると、推定コストと実行時間の比率が大きく異なっていることが分かります。この食い違いの犯人は、シーケンシャルスキャンのコスト推定の部分です。PostgreSQLは、インデックススキャンを4,000回するよりもシーケンシャルスキャンを1回する方がコストが低いと推定しましたが、実際にはインデックススキャンの方が50倍も速かったのです。

That led me to the ‘random_page_cost’ and ‘seq_page_cost’ configuration options. The default PostgreSQL values of 4 and 1 for ‘random_page_cost’, ‘seq_page_cost’ respectively are tuned for HDD, where random access to disk is more expensive than sequential access. However these costs were inaccurate for our deployment using gp2 EBS volume, which are solid state drives. For our deployment random and sequential access is almost the same.

このことから、私は random_page_cost と seq_page_cost の設定について考え始めました。PostgreSQLのデフォルトでは random_page_cost には 4 、seq_page_cost には 1 が設定されています。これはランダムアクセスの方がシーケンシャルアクセスよりもコストが高いハードディスクに合わせてチューニングされています。しかし、これらのコストは、我々がデプロイしている（AWSの）gp2 EBS ボリューム（SSDです）においては正確ではありません。我々のデプロイメント環境では、ランダムアクセスとシーケンシャルアクセスの性能はほぼ同じです。

I changed ‘random_page_cost’ to 1 and retried the query. This time, PostgreSQL used a Nested Loop and the query finished 50x faster. After the change we also noticed a significant drop in max response times from PostgreSQL.

私は random_page_cost を 1 に設定してクエリを再度実行してみました。この時には、PostgreSQLはネステッドループ結合を採用し、クエリは50倍速く実行されました。この設定を変更した後、我々のPostgreSQLの最大のレスポンスタイムは著しく短縮されました。

Overall Slow Query performance improved significantly

If you are using SSDs and running PostgreSQL with default configuration, I encourage you to try tuning random_page_cost & seq_page_cost. You might be surprised by some huge performance improvements.

もし、あなたがSSDを使っていて、PostgreSQLをデフォルトの設定で使っているのなら、 random_page_cost と seq_page_cost をチューニングしてみることをお勧めします。大きなパフォーマンス改善に驚くかもしれません。

Has any other parameter tuning given you huge gains across the board? Let us know about it in the comments.

他に何か全体的なパフォーマンスの大きな改善につながったパラメータチューニングをご存知でしょうか？コメント欄で教えていただければと思います。

以上です。

最後で触れられているコメントについては、（英語で）オリジナル版の方にお願いいたします。

Hacker Newsのコメントも面白いと思いますので、併せてどうぞ。

How a single PostgreSQL config change improved slow query performance by 50x | Hacker News https://t.co/QlpjDcWr89
— Satoshi Nagayasu 🦃 (@snaga) 2017年11月28日

では、また。

【告知】9月9日（土）に関西DB勉強会で講演します

2017-08-25T12:55:00.000+09:00

9月9日（土）に関西DB勉強会で講演します。

第6回　関西DB勉強会 - connpass
https://kansaidbstudy.connpass.com/event/62974/

「PostgreSQLエンジニアにとってのデータ分析プロジェクト：テクノロジーとその実践（仮）」というタイトルで、ここ3～4年のテクノロジーやスキル、経験、そこからの学びなどをごった煮でお送りする予定です。他にも面白そうなセッションが目白押しとなっております。

既にキャンセル待ちとなっておりますが、都合の付く方はぜひご参加ください。私からのトークだけではなく、いろいろな方と意見交換をできればと思っています。

よろしくお願いします。

技術文書「PostgreSQL 10 Beta1 新機能検証結果」が公開されました

2017-06-08T12:21:00.001+09:00

少し前の話になりますが、みなさんお馴染みとなりつつある日本HP篠田さんから PostgreSQL 10 beta1 の資料が公開されました。

HP コミュニティ - 『篠田の虎の巻』第7弾公開！PostgreSQL 10 beta 1に対応！ - エンタープライズ・ビジネス・コミュニティ

PostgreSQL 10 Beta 1 の新機能を検証した資料を公開しました。https://t.co/uFi49d095c #PostgreSQL10 #PostgreSQL
— Noriyoshi Shinoda (@nori_shinoda) May 26, 2017

今回、私も事前レビューに参加させてもらいました。

本ドキュメントは全体で100ページ以上あり、以下のような構成になっています。

1. 本文書について
2. バージョン表記
3. 新機能解説
3.1 PostgreSQL 10における変更点概要
3.2 パーティション・テーブル
3.3 Logical Replication
3.4 パラレル・クエリーの拡張
3.5 アーキテクチャの変更
3.6 モニタリング
3.7 Quorum-based同期レプリケーション
3.8 Row Level Securityの拡張
3.9 SQL文の拡張
3.10 パラメーターの変更
3.11 ユーティリティの変更
3.12 Contribモジュール
参考にしたURL

正直、私も PostgreSQL 10 の機能はほとんど追えていないのと、このドキュメントも100ページ以上あってきちんと理解するのはそれなりに大変なわけですが、そんな人のために「3.1 PostgreSQL 10における変更点概要」という数ページのセクションを用意していただきました。

まだPostgreSQLにそれほど詳しくない方、理解に時間をかけられない方でも、この数ページをざっと読んでおくだけでも、それなりに理解できるのではないかと思います。

最近、篠田さんは本家のGitのコミットログまでほぼリアルタイムに読むようになっているようで、開発内容のキャッチアップの速さと正確さは「梵天丸もかくありたいが多分無理」というレベルに達しつつある気がします。

そんな著者による解説ですので、ぜひこの機会に目を通しておくことをお勧めします。

では、また。

Azure Database for PostgreSQLにアクセスしてみた

2017-05-14T16:15:00.005+09:00

5/11のMicrosoft Build 2017で、PostgreSQLのDBaaSがAzureで提供されることが発表されました。

［速報］マイクロソフト、Azureで「MySQL」「PostgreSQL」のデータベースサービス提供を発表、運用の手間は不要。Build 2017 － Publickey
http://www.publickey1.jp/blog/17/azuremysqlpostgresqlbuild_2017.html

現時点ではプレビューのようですが、ちょっと興味があったので軽く触ってみました。

ちなみに、Azureは普段使っていないのでそんなに詳しくありません。

■PostgreSQLのリソースを作成する

まず、Azureのダッシュボードで「PostgreSQL」と検索すると、PostgreSQLのリソースが出てきます。

そこで「追加」を選び、入力項目を適当に埋めて「作成」を実行すると、数分経ってPostgreSQLのリソースが作成されます。

■PostgreSQLに接続する

リソースが作成されただけだと外部から接続ができないので、「設定」→「接続のセキュリティ」から接続を許可するネットワークを指定します。

すると、外部からでもpsqlで普通に接続できるようになりました。

[snaga@localhost ~]$ psql -h hostname.postgres.database.azure.com -U snaga@hostname postgres
Password for user snaga@hostname:
psql (9.6.0, server 9.6.2)
SSL connection (protocol: TLSv1.2, cipher: ECDHE-RSA-AES256-SHA384, bits: 256, compression: off)
Type "help" for help.

postgres=> select version();
                           version
-------------------------------------------------------------
 PostgreSQL 9.6.2, compiled by Visual C++ build 1800, 64-bit
(1 row)

ちなみに、Azureで「サーバー管理者ログイン名」として作成しているユーザは、PostgreSQLで言うところのスーパーユーザーではありませんので注意が必要でしょう。まぁ、PostgreSQLのDBaaSはどこも同じだと思いますが。

postgres=> select * from pg_user;
     usename     | usesysid | usecreatedb | usesuper | userepl | usebypassrls |  passwd  | valuntil | useconfig
-----------------+----------+-------------+----------+---------+--------------+----------+----------+-----------
 azure_superuser |       10 | t           | t        | t       | t            | ******** |          |
 snaga           |    12900 | t           | f        | f       | f            | ******** |          |
(2 rows)

Collationは「C」ではなかったので、この辺は注意が必要かもしれません。

postgres=> \l
                                                           List of databases
   Name    |      Owner      | Encoding |          Collate           |           Ctype            |          Access privileges
-----------+-----------------+----------+----------------------------+----------------------------+-------------------------------------
 postgres  | azure_superuser | UTF8     | English_United States.1252 | English_United States.1252 |
 template0 | azure_superuser | UTF8     | English_United States.1252 | English_United States.1252 | =c/azure_superuser     +
           |                 |          |                            |                            | azure_superuser=CTc/azure_superuser
 template1 | azure_superuser | UTF8     | English_United States.1252 | English_United States.1252 | =c/azure_superuser     +
           |                 |          |                            |                            | azure_superuser=CTc/azure_superuser
(3 rows)

■EXTENSIONを見てみる

さて、PostgreSQL と言えば EXTENSION です。

というわけで、最初からセットアップされている EXTENSION と、追加で使える EXTENSION を確認してみました。

以下は最初からインストールされている EXTENSION です。

postgres=> select * from pg_extension;
      extname       | extowner | extnamespace | extrelocatable | extversion | extconfig | extcondition
--------------------+----------+--------------+----------------+------------+-----------+--------------
 plpgsql            |       10 |           11 | f              | 1.0        |           |
 pg_stat_statements |       10 |         2200 | t              | 1.4        |           |
 pg_buffercache     |       10 |         2200 | t              | 1.2        |           |
(3 rows)

以下は CREATE EXTENSION を実行すれば使える EXTENSION です。プレビューだからか、ちょっと少な目な感じでしょうか。個人的には PL/Python などが使えるといいのになぁと思います。

postgres=> select * from pg_available_extensions;
             name             | default_version | installed_version |                                                       comment
------------------------------+-----------------+-------------------+---------------------------------------------------------------------------------------------------------------------
 address_standardizer         | 2.3.2           |                   | Used to parse an address into constituent elements. Generally used to support geocoding address normalization step.
 address_standardizer_data_us | 2.3.2           |                   | Address Standardizer US dataset example
 btree_gin                    | 1.0             |                   | support for indexing common datatypes in GIN
 btree_gist                   | 1.2             |                   | support for indexing common datatypes in GiST
 citext                       | 1.3             |                   | data type for case-insensitive character strings
 fuzzystrmatch                | 1.1             |                   | determine similarities and distance between strings
 hstore                       | 1.4             |                   | data type for storing sets of (key, value) pairs
 intarray                     | 1.2             |                   | functions, operators, and index support for 1-D arrays of integers
 pgcrypto                     | 1.3             |                   | cryptographic functions
 pgrouting                    | 2.3.2           |                   | pgRouting Extension
 pg_buffercache               | 1.2             | 1.2               | examine the shared buffer cache
 pg_partman                   | 2.6.3           |                   | Extension to manage partitioned tables by time or ID
 pg_prewarm                   | 1.1             |                   | prewarm relation data
 pg_stat_statements           | 1.4             | 1.4               | track execution statistics of all SQL statements executed
 pg_trgm                      | 1.3             |                   | text similarity measurement and index searching based on trigrams
 plpgsql                      | 1.0             | 1.0               | PL/pgSQL procedural language
 postgis                      | 2.3.2           |                   | PostGIS geometry, geography, and raster spatial types and functions
 postgis_sfcgal               | 2.3.2           |                   | PostGIS SFCGAL functions
 postgis_tiger_geocoder       | 2.3.2           |                   | PostGIS tiger geocoder and reverse geocoder
 postgis_topology             | 2.3.2           |                   | PostGIS topology spatial types and functions
 postgres_fdw                 | 1.0             |                   | foreign-data wrapper for remote PostgreSQL servers
 unaccent                     | 1.1             |                   | text search dictionary that removes accents
 uuid-ossp                    | 1.1             |                   | generate universally unique identifiers (UUIDs)
(23 rows)

ちなみに、スーパーユーザー権限ではないユーザでCREATE EXTENSIONできるんだっけ？というのを確認してみたのですが、一応、CREATE EXTENSIONできるようです。

postgres=> create extension hstore;
CREATE EXTENSION
postgres=> create extension postgis;
CREATE EXTENSION
postgres=> create extension pg_trgm;
CREATE EXTENSION
postgres=>

■AzureのPostgreSQLリソースの設定項目

ざっと見た感じ、以下のような設定ができるようです。

サーバパラメータ

監視できるメトリックス

サーバログ

■まとめ

というわけで、ざっと Azure Database for PostgreSQL を見てみました。

このエントリは、Azure Database for PostgreSQL を使い始めるところから1時間弱くらいで書き上げているわけですが、DBaaSは楽だなぁと改めて感じました。

一方で、PostgreSQLの良さの一部には、アプリケーション開発における拡張性や柔軟性の高さがあったりするわけですが、この辺りをDBaaSでどこまで実現できるのかというのが（サービス提供側の）難しさなのかなぁ、という気もします。（まぁ、使える EXTENSION とかは決めの問題のような気もしますが。）

Azure Database for PostgreSQL はDBaaSとしては後発だと思うので、後発ならではの工夫や特徴があるともっと面白くなりそうだなぁと感じました（MADlibが使える、とか）。

では、また。

Hecatoncheir: The Data Stewardship Studio 0.8を公開しました

2017-05-09T17:22:00.000+09:00

本日、「Hecatoncheir: The Data Stewardship Studio」という最近開発していた新しいツールをOSSとして公開しました。

Hecatoncheir: The Data Stewardship Studio
https://github.com/snaga/Hecatoncheir

本ツールは、データベースのメタデータおよび実データの統計情報やプロファイルを用いることで、データ品質マネジメントおよびデータガバナンスを実施するデータスチュアードを支援することを目的としたソフトウェアです。

既に某所のデータウェアハウスのシステムの周辺で稼働しています。

本エントリでは、このツールの紹介をさせていただきます。（本ツールはPostgreSQLにも対応しております）

■本ツールを開発した背景

最近は、データウェアハウスの設計から構築、データマネジメント（ガバナンスやスチュアードシップと呼ばれることもありますが）を手掛けることが多くなってきました。

データベースエンジニアですから、新しい情報系システムの領域であってもテクニカルな作業もそれなりにこなせるのですが、いくつかの案件を手掛ける中で気付いたことがありました。

それは、どのような局面であっても、データの調査や確認のために同じような作業（クエリの実行など）を何度も何度も繰り返して行わなければならない、ということです。そして、データは日々変化していくため、そのタスクを毎日のように繰り返さなければなりません。

また、データについて、他人に説明する時にもこのような調査や確認の作業が常に付きまとってきます。

それに加えて、データに何か問題が発生する可能性があるのであれば、それをできるだけ速やかに検出したくなります。

しかし、そのような調査や確認作業に日常的に忙殺されていると、もっと本質的な作業に手を回すことができなくなってしまいます。

そのため、このような「ルーティンで何度も行わなければならないタスク」を自動的に実行することでデータの状態の把握・可視化を容易にし、またデータの品質問題の早期検知を実現するためのツールを開発することにしました。

このツールを使うことによって、データの面倒を見ている人たち（データスチュアード）が「当たり前のことを手間をかけずに行い、もっと新しいこと、本質的なことに安心して時間をかけられる」ようになります。

■本ツールでできること

本ツールでできることは以下の通りです。

データベースディクショナリ（カタログ）からメタデータを取得する
テーブルやカラムのプロファイリングを行う
あらかじめ定義したビジネスルールに則ってデータ検証を行う
タグ付けおよび補足的なメタデータを取り込むことでデータセットをカタログ化する
ビジネス用語集を構築する
データの開発者と利用者が必要とする情報をキュレーション・共有する

いくつかスクリーンショットを貼っておきます。

■本ツールの仕組み

本ツールは、コマンドラインで動作するツール類と、ツールからの入力を保存・統合するレポジトリ（SQLiteファイル）から構成されています。

①まず、データディクショナリからメタデータを取得してレポジトリに保存する
②補足的なメタデータをCSVファイルからレポジトリに取り込む
③実データに対するプロファイリングやデータ検証を行い、結果をレポジトリに取り込む
④レポジトリにあるデータをHTMLとしてエクスポートする

というのが基本的な仕組み、動作の流れになります。

■動作環境・対応プラットフォーム

動作環境・対応プラットフォームについては、READMEを参照してください。

Hecatoncheir/README.md at develop · snaga/Hecatoncheir
https://github.com/snaga/Hecatoncheir/blob/develop/README.md

■本ツールの使い方

ソースコードはGithubレポジトリから入手できます。

Hecatoncheir: The Data Stewardship Studio
https://github.com/snaga/Hecatoncheir

クイックスタートガイドを用意していますので、興味のある方はこちらをご覧ください。

クイックスタート — Hecatoncheir 0.8 ドキュメント
http://hecatoncheir-ja.readthedocs.io/ja/latest/quick-start.html

リファレンス的な情報もまとめてあります。

Hecatoncheir: The Data Stewardship Studio — Hecatoncheir 0.8 ドキュメント
http://hecatoncheir-ja.readthedocs.io/ja/latest/

■名前（Hecatoncheir）の由来

ご存じの方も多いと思いますが、Hecatoncheir（ヘカトンケイル）というのは、ギリシャ神話に出てくる神様の名前です。

ヘカトンケイル - Wikipedia
https://ja.wikipedia.org/wiki/%E3%83%98%E3%82%AB%E3%83%88%E3%83%B3%E3%82%B1%E3%82%A4%E3%83%AB
ヘカトンケイルたち
http://www.h6.dion.ne.jp/~em-em/page263.html

50の頭と100の手を持ち、戦いに当たってはその怪力と多くの腕で次々と大きな岩を投げつけて勝利に導き、戦いが終わると今度は100の眼で奈落の出入口で監視をするという役回りが、このツールのイメージとピッタリのように感じたため、この名前を選びました。

■まとめ

本エントリでは、今回公開した Hecatoncheir の紹介をしました。

まだまだ対応DBMSも増やしていきたいですし、いろいろと機能開発や改良もしていきたいと思っています。

興味のある方は、ぜひGithubのIssueなどでご意見、コメントを頂ければと思います。

では。

In-database Analyticsの集い #1を開催します

2017-02-21T13:36:00.000+09:00

3月10日（金）に「In-database Analyticsの集い #1」というMeetupを開催することになりました。

In-database Analyticsの集い #1 - connpass

「In-Database Analytics」というのは、データベースに蓄積されたデータに対して、「データを取り出さずに」データベース内部で分析処理をする技術の総称だと思っていただければいいかと思います。

データベースに蓄積されるデータはどんどん大きくなっている昨今ですが、それに伴ってデータベースからデータを取り出してから分析処理をする、というのが難しくなりつつあります。そのため、データベースからデータを取り出さずに分析処理をする「In-Database Analytics」の重要性がより高まってくると感じています。

今回のMeetupでは、ソフトウェアによるIn-Database Analyticsの話から始めて、昨今注目されているハードウェアアクセラレーションの活用（GPGPUやFPGA）などについて情報交換する場にできればと思っています。

というわけで、この辺の話に興味がある方はぜひご参加いただければと思います。お待ちしています。

では。

コサイン類似度に基づくソート処理の実装方法とその性能比較

2017-01-24T13:03:00.003+09:00

文書の類似度を計算する方法に「コサイン類似度」を用いる方法があります。

これは、出現する単語を出現回数などで数値化して、空間ベクトルに変換した上でベクトル同士の類似度を計算する、という手法です。

コサイン類似度
http://www.cse.kyoto-su.ac.jp/~g0846020/keywords/cosinSimilarity.html

最近、このコサイン類似度を使って、似ているデータを検索するWebアプリを試しに作っていたのですが、ふと、

「このコサイン類似度を使ったソート処理をPostgreSQLでどのように実装するともっとも高速な実装になるのだろうか。また、現実的なパフォーマンスを考えた時にデータ量や次元のサイズはどこまで増やせるのだろうか」

ということが気になりました。

PostgreSQLは、その拡張性の高さがウリの一つですが、そのため「UDFを作る」ということを考えても、実装方法にもいろいろあります。

今回は、PostgreSQL内部でデータ処理を実装するに当たって、どのような実装方法があるのか、それぞれどのように性能が違うのか、そしてその時にデータサイズがどのように影響するのかを見てみます。

■前提条件

今回は以下の前提条件で実装と性能比較を行います。

ソート処理するデータはPostgreSQLに蓄積されているものを対象とする
空間ベクトルを表すデータは、PostgreSQL の float8 の配列で1カラムに保持する
コサイン類似度による類似度を計算し、もっとも類似度の高いレコードをN件取得する

これらを前提条件として、コサイン類似度の計算を

(1) CのUDFで実装した場合
(2) PythonのUDFで実装した場合（PL/Python）
(3) scikit-learnのcosine_similarity関数を使ってPythonのUDFで実装した場合（PL/Python + scikit-learn）
(4) MADlibのcosine_similarity関数を使った場合
(5) scikit-learnを使ってクライアント側に取得してクライアント側で計算する場合

に、パフォーマンスがそれぞれどう異なるかを確認してみます。

また、レコード数および空間ベクトルの次元数によって実行時間がどのように変わるかも確認してみます。

■処理対象のデータ

処理対象のデータは、 data_vec テーブルに主キーとして整数型のカラム id を持ち、空間ベクトルのデータとして float8[] 型のカラム vec を持つテーブルです。

CREATE TABLE data_vec (
  id INTEGER PRIMARY KEY,
  vec FLOAT8[] NOT NULL
);

このテーブルの中に、以下のようにレコードが入っています。（以下は100次元の空間ベクトルのデータが5件入っている状態）

test_cos_sim=> select * from data_vec ;
 id |                                                                                                    vec

----+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
  0 | {1,1,0,0,1,0,1,0,0,1,1,1,0,1,1,0,1,1,1,1,0,1,1,1,0,0,0,1,1,1,0,1,0,1,1,0,1,0,1,1,0,0,1,0,0,1,0,1,0,1,1,0,0,0,1,1,0,1,1,1,1,1,1,1,1,0,1,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1,0,1,0,1,1,1,1,1,1,0,1,1,1,1,0,1,0}
  1 | {1,1,0,1,0,0,1,0,1,0,0,1,0,1,1,1,1,0,1,1,1,0,0,1,0,0,1,0,0,0,1,1,0,0,0,0,0,1,0,0,1,0,0,1,0,0,1,1,1,0,1,1,0,1,1,0,0,1,0,0,0,0,1,1,0,0,1,0,1,0,1,0,0,0,0,1,0,0,0,1,1,1,1,0,0,1,0,0,0,0,1,0,1,1,0,0,1,0,1,0}
  2 | {0,0,0,1,0,1,1,1,0,0,0,1,1,1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,0,0,1,1,0,1,0,1,0,0,0,0,1,1,0,1,1,0,1,0,0,0,1,1,1,1,1,0,1,1,1,1,1,1,0,1,0,1,0,0,0,1,1,0,1,0,0,1,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,1,1,0,0,1,0,0,1}
  3 | {1,1,1,0,1,1,0,0,1,0,0,0,1,0,0,1,1,0,0,1,0,1,0,0,0,1,1,1,0,1,0,0,0,0,1,0,0,0,0,1,0,1,1,0,0,1,1,0,1,0,0,0,1,0,1,0,0,1,1,1,0,0,0,1,1,1,1,1,0,0,1,0,0,0,0,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,0,1,0,1,1}
  4 | {1,1,0,0,1,0,0,1,1,0,0,1,0,1,0,0,1,0,0,0,0,1,1,1,0,1,0,1,0,0,0,0,0,1,1,0,1,0,0,1,0,1,1,0,1,0,0,1,1,1,0,1,1,1,1,1,1,1,1,0,1,0,1,0,1,0,0,1,0,1,1,1,1,0,0,1,1,1,1,0,0,0,0,1,1,1,0,0,1,1,0,0,1,0,1,1,1,0,0,0}
(5 rows)

test_cos_sim=>

■コサイン類似度計算UDFの実装

コサイン類似度の計算をするUDFのそれぞれの実装は以下のようになります。

CによるUDFの実装 (1) は以下のようになります。

Datum
cosine_similarity(PG_FUNCTION_ARGS)
{
  ArrayType  *vec_a = PG_GETARG_ARRAYTYPE_P(0);
  ArrayType  *vec_b = PG_GETARG_ARRAYTYPE_P(1);
  float8 ab = 0;
  float8 aa = 0;
  float8 bb = 0;
  int i;

  int len_a = (ARR_SIZE(vec_a) - ARR_DATA_OFFSET(vec_a)) / sizeof(float8);
  int len_b = (ARR_SIZE(vec_b) - ARR_DATA_OFFSET(vec_b)) / sizeof(float8);

  float8 *a = (float8 *)ARR_DATA_PTR(vec_a);
  float8 *b = (float8 *)ARR_DATA_PTR(vec_b);

  for (i = 0; i < len_a; i++)
  {
    aa += a[i] * a[i];
    bb += b[i] * b[i];
    ab += a[i] * b[i];
  }

  PG_RETURN_FLOAT8(ab/(sqrt(aa)*sqrt(bb)));
}

PL/PythonのUDFとして実装 (2) すると以下のようになります。

CREATE OR REPLACE FUNCTION cosine_similarity_plpy(vec_a float8[], vec_b float8[])
  RETURNS float8
AS $$
    from math import sqrt
    aa = 0
    bb = 0
    ab = 0
    for a,b in zip(vec_a, vec_b):
        aa += a * a
        bb += b * b
        ab += a * b
    return ab/(sqrt(aa)*sqrt(bb))
$$
LANGUAGE 'plpython2u';

PL/Pythonでも scikit-learn を使った実装 (3) は以下のようになります。

CREATE OR REPLACE FUNCTION cosine_similarity_sk(vec_a float8[], vec_b float8[])
  RETURNS float8
AS $$
    from sklearn.metrics.pairwise import cosine_similarity
    return cosine_similarity([vec_a], [vec_b])[0][0]
$$
LANGUAGE 'plpython2u';

■検証用クエリ

今回の評価では、上記のデータとUDFを使って、「id=0」の空間ベクトルを問い合わせクエリとして、「その他（id=0以外）」のレコードの中から最も似ているレコードを10件取得してみます。クエリは、それぞれ以下のようになります。

CによるUDFを使う場合 (1)：

SELECT
  a.id as "id1",
  b.id as "id2",
  cosine_similarity(a.vec, b.vec)
FROM
  data_vec a,
  data_vec b
WHERE
  a.id = 0
AND
  b.id <> 0
ORDER BY
  3 DESC
LIMIT 10;

PL/PythonによるUDFを使う場合 (2)：

SELECT
  a.id as "id1",
  b.id as "id2",
  cosine_similarity_plpy(a.vec, b.vec)
FROM
  data_vec a,
  data_vec b
WHERE
  a.id = 0
AND
  b.id <> 0
ORDER BY
  3 DESC
LIMIT 10;

PL/Python + scikit-learn によるUDFを使う場合 (3)：

SELECT
  a.id as "id1",
  b.id as "id2",
  cosine_similarity_sk(a.vec, b.vec)
FROM
  data_vec a,
  data_vec b
WHERE
  a.id = 0
AND
  b.id <> 0
ORDER BY
  3 DESC
LIMIT 10;

MADlib の cosine_similarity 関数を使う場合 (4)：

SELECT
  a.id as "id1",
  b.id as "id2",
  madlib.cosine_similarity(a.vec, b.vec)
FROM
  data_vec a,
  data_vec b
WHERE
  a.id = 0
AND
  b.id <> 0
ORDER BY
  3 DESC
LIMIT 10;

上記は関数名が違うだけで、クエリは基本的には同じです。

なお、クライアント側に取得して scikit-learn で計算する実装 (5) は以下のようになります。

import psycopg2
from sklearn.metrics.pairwise import cosine_similarity

conn = psycopg2.connect("dbname=test_cos_sim")
cur = conn.cursor()
q = """
SELECT
  a.id as "id1",
  a.vec as "vec1",
  b.id as "id2",
  b.vec as "vec2"
FROM
  data_vec a,
  data_vec b
WHERE
  a.id = 0
AND
  b.id <> 0
"""

cur.execute(q)
d = []
for r in cur.fetchall():
    d.append((r[2], cosine_similarity([r[1]], [r[3]])[0][0]))

print "sk_cli"
for r in sorted(d, key=lambda s: s[1], reverse=True)[:10]:
    print(r)

conn.close()

■検証環境

今回検証に用いた環境は以下の通りです。Windows上でのVirtualBoxのVM環境です。

Core i7-4785T 2.20GHz (Quad core)
CentOS 6.6 (x86_64)
Python 2.7.9
PostgreSQL 9.5.2
VM（VirtualBox）に4コアを100%割り当て
VM上で4GB RAM

■実装方式による性能比較

以下は、実装方式による実行時間の比較です。

ここでは、まずはベースラインとして500次元の空間ベクトルを10,000レコード作成して、クエリの実行時間（5回実行した平均値）を取得しています。

縦軸は実行時間（短い方が高速）、横軸はそれぞれ

(1) CによるUDF (func_native)
(2) PL/PythonによるUDF (func_plpy)
(3) PL/Python+scikit-learnによるUDF (func_plpy_sk)
(4) MADlibのcosine_similarity関数 (func_madlib)
(5) クライアント側に取得してscikit-learnで処理 (cli_sk)

を示しています。

この結果を見ると、

CによるUDFとMADlibの関数が圧倒的に高速（それぞれ102msと129ms）
PL/Python系の実装が一桁遅い（1906msと2854ms）
クライアント側にデータを持ってきてソート処理をするのがもっとも遅い（7381ms）

という結果になっています。

■次元数の違いによる性能比較

次に、空間ベクトルの次元数を500から1,000および2,000に増やして実行時間がどのように変化するかを確認します。レコード数はすべて10,000件としています。

結果を見ると、次元数に応じて実行時間は長くなっています。

CによるUDFとMADlibが圧倒的に高速なのは変わらないのですが、PL/Python系の実装について見てみると、500次元の時には（scikit-learnを使わない）素のPL/Pythonの実装（func_plpy）の方が高速であったのが、次元数が2,000になると、scikit-learnを使った実装（func_plpy_sk）の方が高速になっています。

これは、おそらく素の Python で大きな配列を扱うよりは scikit-learn の方が大量の数値データの扱いに長けているためでしょう。（今回は実施しませんでしたが、numpyを使うと素のPythonで実装するよりは高速になるかもしれません）

■レコード数の違いによる性能比較

最後に、空間ベクトルの次元数は2,000のままにして、レコード数を10,000件から20,000件、40,000件と増やしてみて、実行時間がどのように変化するかを確認します。

レコードの増加に伴って、レコード数と同じ程度に実行時間が延びていることが分かります。

ここでも、レコード数が増えると素の PL/Python による実装よりも、PL/Python の UDF 内で scikit-learn を使った方が高速になる傾向が出ています。

なお、クライアント側に取ってきて scikit-learn で処理する方式（cli_sk）は、40,000レコードの時に Out of Memory エラーで実行できなかったので、結果がありません。

以下に、計測した数値を一覧で示します。（数値はミリ秒）

なお、今回利用したコード類は以下に置いておきましたので、興味のある方は合わせてご利用ください。

snaga/eval_cosine_similarity
https://github.com/snaga/eval_cosine_similarity

■まとめ

今回は、「データベース内のデータに対してコサイン類似度を計算して、より似ているレコードを取得する」というケースを想定して、どのような実装がより高速なのかを検証してみました。

その結果として、今回の前提条件であれば、

Cで作成したUDFとMADlibはパフォーマンス的にほとんど変わらない。
それに比べると、PL/Pythonでの実装は（scikit-learnを使うかどうかに関わらず）1ケタ以上遅い。
処理するデータ量（次元またはレコード数）が多くなると、scikit-learnを使う実装のメリットが出てくる。
オンラインシステムでの利用を想定すると、数百ミリ秒で返ってきたMADlibはそのまま利用できる可能性がある。
データをクライアントに転送して処理するのは時間がかかる。

ということが分かりました。

興味のある方は、自分のデータを使って、あるいは別のアルゴリズムについてもデータベース内での処理を試してみていただければと思います。

では。

オープンデータ＋PostGIS＋Google Maps で観光マップを作ってみた

2016-12-24T00:00:00.000+09:00

本エントリは PostgreSQL Advent Calendar 2016 の Day24 のエントリです。昨日は @mazudakz さんの「pg_stats_reporter をしくじった話」でした。読み応えあって面白かった。

さて、先日（と言っても結構前）、地理情報をPostgreSQLで扱う例として、巡回セールスマン問題をPostgreSQLで解きつつGoogle Mapsで可視化するエントリを書きました。

巡回セールスマン問題における最短経路をpgRoutingで探索する
http://pgsqldeepdive.blogspot.jp/2016/09/pgrouting.html

今回は、もう少し進んでPostgreSQLにおける地理情報の検索とGoogle Mapsの動的な可視化を連動させてみましたので、その内容を紹介します。

実現したいことは、

観光に関連する情報をPostgreSQLに取り込んで、
Google Mapsで地図上にマッピングして可視化しつつ、
地図上をブラウジングしながら、
興味のある場所があったらそのままGoogle検索に飛ぶ

という仕組みです。

年末年始のお出かけの検討に、または雑談のお供にご活用いただければと思います。

■オープンデータ「国土数値情報　観光資源データ」とは

まず、今回使うデータですが、国土交通省が公開している「国土数値情報」の中から「観光資源」のデータを使います。

国土数値情報ダウンロードサービス
http://nlftp.mlit.go.jp/ksj/index.html
国土数値情報　観光資源データの詳細
http://nlftp.mlit.go.jp/ksj/gml/datalist/KsjTmplt-P12-v2_2.html

このデータは各都道府県が「観光資源」として登録しているデータで、以下のような項目が含まれています。

観光資源_ID
観光資源名
都道府県コード
行政コード
種別名称
所在地住所
観光資源分類コード
観光資源（地理情報）

そのため、これらをうまくPostgreSQLに取り込んでやる必要があります。

このデータは地理情報のデータフォーマットとして広く使われている「シェープファイル（Shape File）」と呼ばれる形式で配布されています。

PostGISには、このシェープファイルをPostgreSQLに取り込むためのコマンドラインツールが含まれており、比較的容易にPostgreSQLのデータベースに取り込むことができます。

シェープファイルのデータをインポートしてみようコマンドライン編 - Qiita
http://qiita.com/yellow_73/items/f2d8388e88d534066bc0

今回はこの方法を使って、観光資源データのシェープファイルをPostgreSQLに取り込みます。

■データを準備する

データセットをダウンロードすると分かりますが、47都道府県×3種類で、100以上のシェープファイルが含まれています。

シェープファイルを取り込む shp2pgsql コマンドは1シェープファイル1テーブルとして作成しますので、普通に取り込むと100個以上のテーブルができることになります。前処理としてそれらのテーブルを統合しておいた方が良いでしょう。

というわけで、取り込むスクリプトは以下です。

https://github.com/snaga/postgis-googlemaps/blob/master/db/004_P12-14_GML.sh

各シェープファイルの取り込みと、それらを統合して「p12_14」というテーブルを作成してくれます。

実行すると以下のようになります。

[snaga@localhost postgis_test]$ ./004_P12-14_GML.sh
Archive:  ./data/P12-14_GML.zip
   creating: P12-14_GML/
  inflating: P12-14_GML/KS-META-P12_14-01.xml
  inflating: P12-14_GML/KS-META-P12_14-02.xml
  inflating: P12-14_GML/KS-META-P12_14-03.xml
...
DROP TABLE
DROP TABLE
DROP TABLE
COMMIT
 都道府県コード | count
----------------+-------
 01             |    53
 02             |   524
 03             |   513
 04             |     8
 05             |   679
...
 45             |   265
 46             |    13
 47             |   198
(47 rows)

[snaga@localhost postgis_test]$ psql -c 'select count(*) from p12_14' gistest
 count
-------
 19140
(1 row)

[snaga@localhost postgis_test]$

ついでに都道府県コードの変換テーブルも作成しておきます。

https://github.com/snaga/postgis-googlemaps/blob/master/db/201_PREFCODE.SQL

[snaga@localhost postgis_test]$ psql -f 201_PREFCODE.SQL gistest
psql:201_PREFCODE.SQL:1: ERROR:  table "prefcode" does not exist
CREATE TABLE
COPY 47
[snaga@localhost postgis_test]$ psql -c 'select count(*) from prefcode' gistest
 count
-------
    47
(1 row)

[snaga@localhost postgis_test]$

データをロードし終わると、以下のような状態になります。

gistest=> \d
               List of relations
 Schema |       Name        | Type  |  Owner
--------+-------------------+-------+----------
 public | geography_columns | view  | postgres
 public | geometry_columns  | view  | postgres
 public | p12_14            | table | snaga
 public | prefcode          | table | snaga
 public | raster_columns    | view  | postgres
 public | raster_overviews  | view  | postgres
 public | spatial_ref_sys   | table | postgres
(7 rows)

gistest=> \d p12_14
              Table "public.p12_14"
       Column       |      Type      | Modifiers
--------------------+----------------+-----------
 観光資源ID         | integer        |
 観光資源名         | text           |
 都道府県コード     | character(2)   |
 行政コード         | character(5)[] |
 種別名称           | text           |
 所在地住所         | text           |
 観光資源分類コード | numeric(2,0)   |
 geom               | geometry       |
Indexes:
    "p12_14_idx" btree ("都道府県コード", "観光資源ID")

gistest=> \d prefcode
          Table "public.prefcode"
     Column     |     Type     | Modifiers
----------------+--------------+-----------
 都道府県コード | character(2) | not null
 都道府県名     | text         | not null
Indexes:
    "prefcode_pkey" PRIMARY KEY, btree ("都道府県コード")

gistest=>

■ポリゴンデータを点データに変換する

次に、geomカラムに含まれているポリゴンデータを点のデータに変換します。

ポリゴンデータのままだと、地理情報を使った演算に時間がかかってしまいます。今回はそこまで厳密な距離の計算などは必要ないため、計算量を減らすためにポリゴンから「点」、具体的には「ポリゴンの重心」に変換します。

重心を求めるには PostGIS の ST_Centroid() 関数を使います。

gistest=> select pg_total_relation_size('p12_14');
 pg_total_relation_size
------------------------
               10821632
(1 row)

gistest=> update p12_14 set geom = ST_Centroid(geom);
UPDATE 19140
gistest=> vacuum full p12_14 ;
VACUUM
gistest=> select pg_total_relation_size('p12_14');
 pg_total_relation_size
------------------------
                3571712
(1 row)

gistest=>

ポリゴンから点に変換したことによって、テーブルサイズが1/3程度になりました。

■観光資源データを検索する

ここまでできたら観光資源データを検索してみます。

今回の検索は基本的に「緯度経度で矩形を指定し、その中に存在している観光資源の情報を取得する」というものです。というのは、最終的にはGoogle Mapsで表示、検索できるようにしますので、Google Mapsの表示領域である矩形に切り取れる必要があるのです。

クエリとしては、まず検索したい対象の区域の緯度経度からポリゴンを作成し、そのポリゴンに含まれる観光資源を取得します。

ポリゴンを作成するには ST_MakePolygon() 関数を、作成したポリゴンに座標系を設定するには ST_SetSRID() 関数を使います。

そして、ST_Contains() 関数を使って、作成したポリゴンに観光資源が含まれるかどうかを判定します。

例えば、都庁から浜離宮恩賜庭園にかけての一帯を検索したいのであれば、それぞれの座標は

都庁: 緯度 35.689634 経度 139.692101
浜離宮恩賜庭園: 緯度 35.6597374 経度 139.7634925

となりますので、この座標を対角線に持つ矩形を「139.692101 35.689634, 139.692101 35.6597374, 139.7634925 35.6597374, 139.7634925 35.689634, 139.692101 35.689634」と定義して、ポリゴンを作成します。

この辺。

矩形を指定する方法ですが、「4つの頂点を指定する」のではなく、「頂点を結ぶ線を定義する」必要があります。つまり、最後には「開始点に戻ってくる」必要がある、ということです。開始点と終了点が一致して閉じられていないとエラーが出ますので注意してください。

具体的なクエリとしては以下のようになります。

gistest=> SELECT
  観光資源名,
  ST_Y(geom) lat,
  ST_X(geom) lon,
  所在地住所
FROM
  p12_14
WHERE
  ST_Contains(
    ST_SetSRID(ST_MakePolygon('LINESTRING(139.692101 35.689634, 139.692101 35.6597374,
                                          139.7634925 35.6597374, 139.7634925 35.689634,
                                          139.692101 35.689634)'::geometry), 4612),
    geom
  );
            観光資源名            |       lat        |       lon        |      所在地住所
----------------------------------+------------------+------------------+-----------------------
 江戸城跡                         | 35.6848450646745 | 139.753409059839 | 千代田区千代田
 江戸城跡                         | 35.6848545616798 | 139.753620448968 | 千代田区千代田
 原宿                             | 35.6677931758621 | 139.706963201124 | 渋谷区神宮前
 明治神宮                         | 35.6759794856927 | 139.699423688458 | 渋谷区代々木神園町1-1
 新宿御苑                         | 35.6852930986455 |  139.71005110951 | 新宿区
 国会議事堂                       | 35.6758880055466 | 139.744858001005 | 千代田区永田町1-7-1
 根津美術館                       | 35.6622430012588 | 139.717093001577 | 港区南青山6-6-5-1
 江戸前の寿司                     | 35.6896339956514 | 139.692101001444 | 新宿区
 国立能楽堂で上演される能・狂言   | 35.6804039978788 | 139.708209998586 | 渋谷区千駄ヶ谷4-18-1
 国立劇場で上演される歌舞伎・文楽 | 35.6815600003142 |  139.74327700092 | 千代田区隼町4-1
 明治神宮                         | 35.6757916030472 | 139.699511838812 | 渋谷区代々木神園町1-1
 新宿御苑                         | 35.6850607466651 | 139.709971187167 | 新宿区
(12 rows)

gistest=>

東京にこれしか観光資源ないのかよというツッコミはあろうかと思いますが、PostgreSQLのせいではないのでここでは不問とします。

■検索をREST API化する

矩形で検索できるようになったら、これをブラウザのJavaScriptから呼び出せるようにREST API化します。

Flaskを使ってさくっとREST API化して手元なりどこかのPaaSなりで動作させておきます。

ソースコードは以下です。

https://github.com/snaga/postgis-googlemaps

■Google Mapsと連携する

最後にGoogle Mapsと連携させます。

（力尽きたので詳細は割愛。ソース見てちょ）

https://github.com/snaga/postgis-googlemaps/blob/master/static/maps/index.html

特長、というか、こんな感じで動いてます。

Google Maps JavaScript API使ってます。
表示している領域の四隅の緯度経度を取得して、その領域内にあるアイテムを検索・表示しています。
アイテムをクリックして情報ウィンドウを表示させ、そこからGoogle検索することができます。
表示領域が変わると、新たな座標をパラメータにしてREST APIを呼び、表示すべき項目を取得します。
広域表示をすると表示する項目が多くなりすぎるので、最大100件に間引いてます。
雑に間引いているので、ズームアウトすると見えなくなったり見えたりします。

URLはこちら。

観光マップ feat. オープンデータ
http://snaga-lab.mybluemix.net/static/maps/index.html

ぐりぐりブラウズしながら、興味のありそうなところをさくっとGoogle検索できます。

日本全域表示。最大100件に間引いて表示してます。（北海道に何も表示されていませんが、これは雑に間引いて表示している偶然の産物であり他意はございません。ズームしていくと見えてきます）

たくさん表示されるとちょっとキモい。

おきなわー。クリックすると情報ウィンドウが表示される。

情報ウィンドウから検索に飛ぶことができる。べんりー。

■まとめ

というわけで、今回はオープンデータをPostgreSQL/PostGISに投入して、クエリをREST API化することによってGoogle Mapsと連携できることを示しました。

先日の巡回セールスマン問題のエントリではMy MapsにKMLファイルをインポートする方式を取りましたので、扱っているデータはあくまでもstaticなデータでしたが、今回はREST APIを使って位置情報を動的に取得して可視化することができることを示しました。

フロントエンドと動的に連携できるようになりましたので、キーワード検索や条件検索などなど、「データベースとつながっていることの価値」が出せるようになるのではないかと思います。

また、今回は時間の都合上確認できませんでしたが、近隣にあるデータをクラスタリングして代表点を求める、みたいなこともできるのではないかと考えています（AVG() GROUP BYのようなノリで）。それができると、広域表示の時にもう少し分かりやすい表示になるように思います。

PostgreSQLの強みの一つにはGISデータの扱いであり、かつ、GISデータを扱えるというだけではなく、先のエントリで紹介したような巡回セールスマン問題のソルバーのようなライブラリが存在している、ということも非常にユニークなところだと思います。

地理情報は、まだまだいろんな使い方ができるのではないかなーと感じています。

興味のある方は、ぜひこれを機会に何かチャレンジしてみていただければと思います。

では、また。

Logical Decodingを使ったCDC（Change Data Capture）の実現方法を考えてみる

2016-12-01T00:15:00.001+09:00

今年も風物詩である PostgreSQL Advent Calendar の時期がやって参りました。Day1担当のデータマエショリスト @snaga です。

PostgreSQL Advent Calendar 2016 - Qiita
http://qiita.com/advent-calendar/2016/postgresql

去年もDay1を担当した気がしますが、それはさておき。

余談ですが、今年のAdvent Calendarは

[学生さん・初心者さん大歓迎！]Xamarin Advent Calendar 2016 - Qiita
http://qiita.com/advent-calendar/2016/xamarin-welcome

にも参加しております。また、

C# チュートリアル全部俺 Advent Calendar 2016 - Qiita
http://qiita.com/advent-calendar/2016/c_sharp_tutorial

というのにも（個人的に）チャレンジしていますので、この辺に興味のある方はよろしければどうぞ。

■Logical Decoding?

閑話休題。

皆さんご存知の通り、「Logical Decoding」と呼ばれる機能がPostgreSQL 9.4で導入されました。

PostgreSQLでは「新しい機能入ったらしいが一体何にどう使えばいいんだ？」というような機能が稀によくあります。そのため、2年前にリリースされた機能にも関わらず誰かが使っているという話を聞いたことがない、といったことが起こります。

Logical Decodingにもその空気を感じます。

個人的には Logical Decoding みたいなものはインフラストラクチャーであって機能ではないと思うのですが、リリースノートにガッツリ「新機能！」とか書かれたりする関係上、いろいろなところでプレゼンなどを通して話に聞くようになるものの、具体的に何に使えるかサッパリ分からんというような事態に遭遇します。分かります。私もです。

不憫な機能はそのままそっとしておいてもいいのですが、今回は歳末助け合いの精神を発揮して使いどころを考えてみたいと思います。Advent Calendarですし。

なお、以降のLogical Decodingの話に特に興味のないという方には、とりあえず以下の動画をお楽しみいただければと思います。

ありがとうございました。

■CDC（Change Data Capture）とは何か

CDC（Change Data Capture）とは、その名の通り「変更を検知・検出する処理」です。データウェアハウスなどの情報系（分析系）システムで出てくる用語で、具体的にはETLの一貫として行われることの多い処理になります。

なぜ情報系のシステムで出てくるのかというと、その瞬間の取引の記録を残すのが要件のオンライン系のシステムと異なり、情報系では「一定の期間に渡るデータの変化」を時系列で分析したいという局面が多々あるからです。

例えば、以下のように会員情報のマスタがあった場合、オンライン系のシステムでは「その取引が発生した瞬間に会員が（住所とか各種ステータスとかが）どういう状態だったのか」が分かっていれば用は足ります。

一方で、情報系のシステムで分析をする場合には「どこに住んでいる会員がどれくらいいるのか、それはどれくらい変化しているのか」といった「変化」を把握する必要が出てきます（もちろん分析内容次第ですが）。

そのため、会員情報などのマスタについてもその変化を追える必要がある、具体的に言うと以下のような形式でデータが欲しくなるわけです。

というわけで、データ分析に適した形に変換するためにオンライン系のテーブルからその変更を検出する処理をCDC（Change Data Capture）と言います。

ETL処理についてガッツリ知りたい方は以下の書籍などを参照してください。

Amazon.co.jp: The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data 電子書籍: Ralph Kimball, Joe Caserta: Kindleストア
https://www.amazon.co.jp/dp/B006JAWFE4/ref=dp-kindle-redirect?_encoding=UTF8

■Logical Decodingとは何か

次にLogical Decodingの復習です。

Logical DecodingはPostgreSQL 9.4で実装された機能で、トランザクションログの内容を論理的なレコードとして取り出せる、という機能です。

PostgreSQLはRDBMSですので、もともとのトランザクションログは物理的なログ、つまり「どのブロックのどのオフセットにどのようなバイト列を書き込む」というような形式でした。

が、物理的なログでは活用（再利用）できる範囲が限られるため、論理的なログ（いわゆるレコード）として取得できるようになった、というのがLogical Decodingの意味するところです。

Logical Decodingの基礎は以下の記事を読んでいただければと思いますが、基本的には「テーブルへの変更が論理的なレコードの形式で取得できる」、というものです。

PostgreSQLのLogical Decoding機能についての紹介 - Qiita
http://qiita.com/bwtakacy/items/d8461518a1770524e0d6

■CDCに必要な要件

というわけで、本エントリでは「Logical DecodingをCDCに使えるのか」という点について、もう少し詳細に見ていこうと思います。

それトリガでやればいいじゃん、とか、夜間バッチで、といった方式もありますが（実際私もやっておりますが）、「ですよねー」と言った瞬間に話が終わるので、今回はLogical Decodingで検討してみることにします。（某社さんのGoldenGateとかってのもこの方式らしいですしおすし）

CDCを実現するに当たって本質的に必要な要件が3つほどあります。（snaga調べ）

まずは「レコードを特定することができ、新規作成か更新かを判別することができる」ということです。つまり、「このレコードは新規レコードなのか、それとも既存のレコードの変更なのか」を判別する必要があるのです。

これは一般的には主キーまたはユニークインデックスの作成されたカラムを使って実現されます。

主キーが「A」というレコードがテーブルに存在している場合、新たに入ってきたログが「A」という主キーを持っていれば既存レコードの更新（UPDATE）、「B」という主キーを持っていたら新規レコード（INSERT）と判別します。

2つ目の要件は「変更を検出したい対象のカラムを絞ることができる」ということです。

つまり、「変更されたら検出したいカラム」と「変更されても検出したくないカラム」を設定できることが重要です。

例えば、会員のマスターとなるテーブルに「住所」と「最終ログイン時刻」のような情報を保持している場合もあるかと思いますが、住所の変更は検出したくても、最終ログイン時刻は検出したくない、といったケースが考えられます。

このような時に「住所」や「ステータス」の変更だけを検出できるというのもCDCに必要な要件になります。

そして、最後は「データが（論理的に）変更されていない時にはログを吐かない」ということです。

これが物理ログと論理ログの違いであり、「論理ログの量」を必要最小限に抑えるために重要な要件となります。

■Logical Decodingのセットアップ

さて、というわけで、そろそろLogical Decodingの出力を詳細に見てみます。

Logical Decodingでは出力プラグインを自由に設定できますが、今回は test_decoding を使います。

PostgreSQL: Documentation: 9.6: test_decoding
https://www.postgresql.org/docs/9.6/static/test-decoding.html

test_decodingの詳細はマニュアルを参照してください、と言いたいところなのですが、マニュアルにはまったく詳細が書かれていないので、それは言うだけ野暮というものです。

まず、以下の設定をpostgresql.confにします。

wal_level = logical
max_replication_slot = 3

次に、レプリケーションスロットを作成します。

レプリケーションスロットは、Logical Decodingでデータを取得する対象のデータベース上で作成する必要があるので注意してください。（今回はtestdb）

testdb=# SELECT * FROM pg_replication_slots;
 slot_name | plugin | slot_type | datoid | database | active | active_pid | xmin | catalog_xmin | restart_lsn | confirmed_flush_lsn
-----------+--------+-----------+--------+----------+--------+------------+------+--------------+-------------+---------------------
(0 行)

testdb=# SELECT * FROM pg_create_logical_replication_slot('testslot0', 'test_decoding');
 slot_name | xlog_position
-----------+---------------
 testslot0 | 2/CFE57030
(1 row)

testdb=# SELECT * FROM pg_replication_slots;
 slot_name |    plugin     | slot_type | datoid | database | active | active_pid | xmin | catalog_xmin | restart_lsn | confirmed_flush_lsn
-----------+---------------+-----------+--------+----------+--------+------------+------+--------------+-------------+---------------------
 testslot0 | test_decoding | logical   |  83604 | testdb   | f      |            |      |         4283 | 1/FF467510  | 1/FF467548
(1 行)

testdb=#

まず、テーブルを作成します。

testdb=# create table k1 (
testdb(#   uid integer primary key,
testdb(#   uname text not null,
testdb(#   gname text not null
testdb(# );
CREATE TABLE
testdb=#

この時、レプリケーションスロットからは以下のデータを取得できます。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |  data
------------+------+--------
 1/FF4675B0 | 4283 | BEGIN
 1/FF4861C0 | 4283 | COMMIT
(2 行)

testdb=#

どうやらDDLのデータは取得できないようです。

■Logical Decodingでは何が出力され、何を取得できるのか

それでは、まずレコードをINSERTしてみます。

testdb=# insert into k1 values (1, 'Park Gyu-ri', 'KARA');
INSERT 0 1
testdb=#

この時、以下のようなログを取得することができます。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                                         data
------------+------+--------------------------------------------------------------------------------------
 1/FF4861F8 | 4284 | BEGIN
 1/FF4861F8 | 4284 | table public.k1: INSERT: uid[integer]:1 uname[text]:'Park Gyu-ri' gname[text]:'KARA'
 1/FF486308 | 4284 | COMMIT
(3 行)

testdb=#

主キーの値と、名前が出力されています。

複数レコードを一括してINSERTすると、

testdb=# insert into k1 values (2, 'Nicole Jung', 'KARA'),
testdb-#   (3, 'Goo Ha-ra', 'KARA'),
testdb-#   (4, 'Han Seung-yeon', 'KARA'),
testdb-#   (5, 'Kang Ji-young', 'KARA');
INSERT 0 4
testdb=#

以下のようなログになります。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                                          data
------------+------+-----------------------------------------------------------------------------------------
 1/FF486340 | 4285 | BEGIN
 1/FF486340 | 4285 | table public.k1: INSERT: uid[integer]:2 uname[text]:'Nicole Jung' gname[text]:'KARA'
 1/FF4863D0 | 4285 | table public.k1: INSERT: uid[integer]:3 uname[text]:'Goo Ha-ra' gname[text]:'KARA'
 1/FF486460 | 4285 | table public.k1: INSERT: uid[integer]:4 uname[text]:'Han Seung-yeon' gname[text]:'KARA'
 1/FF4864F0 | 4285 | table public.k1: INSERT: uid[integer]:5 uname[text]:'Kang Ji-young' gname[text]:'KARA'
 1/FF4865B0 | 4285 | COMMIT
(6 行)

testdb=#

次に、主キーを指定してレコードを更新してみます。

testdb=# update k1 set uname = 'Nicole' where uid = 2;
UPDATE 1
testdb=#

この時のログは以下のようになります。主キーおよび更新された属性（今回は名前）が出力されています。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                                      data
------------+------+---------------------------------------------------------------------------------
 1/FF4865E8 | 4286 | BEGIN
 1/FF4865E8 | 4286 | table public.k1: UPDATE: uid[integer]:2 uname[text]:'Nicole' gname[text]:'KARA'
 1/FF486670 | 4286 | COMMIT
(3 行)

testdb=#

では次に、主キーを指定しないで更新してみます。

testdb=# update k1 set uname = 'Nicole Jung' where uname = 'Nicole';
UPDATE 1
testdb=#

この時、以下のログを取得できます。主キーを指定しない更新でしたが、ログには主キーの情報も出力されています。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                                         data
------------+------+--------------------------------------------------------------------------------------
 1/FF4866A8 | 4287 | BEGIN
 1/FF4866A8 | 4287 | table public.k1: UPDATE: uid[integer]:2 uname[text]:'Nicole Jung' gname[text]:'KARA'
 1/FF486730 | 4287 | COMMIT
(3 行)

testdb=#

なお、値が変わらない更新をしてみると、

testdb=# update k1 set uname = uname;
UPDATE 5
testdb=#

律儀に全レコードの更新ログが出力されます。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                                          data
------------+------+-----------------------------------------------------------------------------------------
 1/FF4869C0 | 4288 | BEGIN
 1/FF4869C0 | 4288 | table public.k1: UPDATE: uid[integer]:1 uname[text]:'Park Gyu-ri' gname[text]:'KARA'
 1/FF486A18 | 4288 | table public.k1: UPDATE: uid[integer]:3 uname[text]:'Goo Ha-ra' gname[text]:'KARA'
 1/FF486A70 | 4288 | table public.k1: UPDATE: uid[integer]:4 uname[text]:'Han Seung-yeon' gname[text]:'KARA'
 1/FF486AD0 | 4288 | table public.k1: UPDATE: uid[integer]:5 uname[text]:'Kang Ji-young' gname[text]:'KARA'
 1/FF486B30 | 4288 | table public.k1: UPDATE: uid[integer]:2 uname[text]:'Nicole Jung' gname[text]:'KARA'
 1/FF486BB8 | 4288 | COMMIT
(7 行)

testdb=#

最後に主キーを指定せずに削除すると

testdb=# delete from k1;
DELETE 5
testdb=#

主キーのみを出力として含むログを取得できます。

testdb=# SELECT * FROM pg_logical_slot_get_changes('testslot0', NULL, NULL, 'include-xids', '0');
  location  | xid  |                  data
------------+------+-----------------------------------------
 1/FF486BF0 | 4289 | BEGIN
 1/FF486BF0 | 4289 | table public.k1: DELETE: uid[integer]:1
 1/FF486C30 | 4289 | table public.k1: DELETE: uid[integer]:3
 1/FF486C70 | 4289 | table public.k1: DELETE: uid[integer]:4
 1/FF486CB0 | 4289 | table public.k1: DELETE: uid[integer]:5
 1/FF486CF0 | 4289 | table public.k1: DELETE: uid[integer]:2
 1/FF486D60 | 4289 | COMMIT
(7 行)

testdb=#

■要するに、Logical DecodingはCDCに使えるのか？

ここまで見てきたように、Logical Decodingではテーブルに主キーが存在していれば、主キーを指定しない更新であってもログに主キーが出力されることが分かりました。そのため、「レコードを特定して新規か更新かを判別する」ということが可能になります。

一方で、「変更を検知したいカラムだけを対象にする」という要件については、現在のLogical Decoding（というか test_decoding プラグイン）の仕様としては、（変更されていないカラムも含めて）すべてのカラムの変更の際にログが出力されることになります。よって、変更を検知する対象としてカラムを絞りたいといった場合には別のしくみが必要になります。

通信の負荷などを考えると、Loigcal Decodingのログを受け取るアプリ側ではなく、ログを出力する Output プラグイン側でフィルターできるようにするべきでしょう。

また、「論理的に値が変わっていない時にはログを吐かない」という点についても、もう一工夫が必要なように感じます。

test_decoding のソースを見ると、テーブルの各カラムの情報である tupledesc と、更新前および更新後のタプルのデータ oldtuple と newtuple を扱えるようですので、この辺りを使えばCDCに必要な要件を実現できるように思います。（汎用的に実現するにはそれなりに手間がかかりそうですが・・・）

postgres/test_decoding.c at master · postgres/postgres
https://github.com/postgres/postgres/blob/master/contrib/test_decoding/test_decoding.c

/*
 * callback for individual changed tuples
 */
static void
pg_decode_change(LogicalDecodingContext *ctx, ReorderBufferTXN *txn,
                 Relation relation, ReorderBufferChange *change)
{
    ...
    TupleDesc    tupdesc;
    ...
    tupdesc = RelationGetDescr(relation);
    ...
        case REORDER_BUFFER_CHANGE_UPDATE:
            appendStringInfoString(ctx->out, " UPDATE:");
            if (change->data.tp.oldtuple != NULL)
            {
                appendStringInfoString(ctx->out, " old-key:");
                tuple_to_stringinfo(ctx->out, tupdesc,
                                    &change->data.tp.oldtuple->tuple,
                                    true);
                appendStringInfoString(ctx->out, " new-tuple:");
            }

            if (change->data.tp.newtuple == NULL)
                appendStringInfoString(ctx->out, " (no-tuple-data)");
            else
                tuple_to_stringinfo(ctx->out, tupdesc,
                                    &change->data.tp.newtuple->tuple,
                                    false);
            break;

■まとめ

まとめます。

誰か汎用CDC用プラグイン作ってください
「トリガーとかバッチでいいじゃん」って言わない

PostgreSQL Advent Calendar 2016、Day2の明日の担当は @seikoudoku2000 さんです。

では、また。

みなさま、良いお年を。

Jupyter NotebookからPostgreSQLに接続してデータを可視化する

2016-11-06T16:51:00.000+09:00

最近、なんだかんだとデータに触る機会が増えてきております。

Unix系エンジニア兼DBAとしては、CLI（コマンドラインインターフェース）が生産性が高くて好きだけど、一方で可視化もお手軽にやりたい、というケースが多々あります。

Jupyter Notebookでデータベースに接続して可視化できる、という話は以前から聞いたことがあったのですが、実際に試してみたことがありませんでした。

今回、軽くPostgreSQLで試してみたのでその手順を簡単にご紹介します。

■セットアップ

以下の3つのモジュールをpipでインストールします。

jupyter
psycopg2
ipython-sql

[snaga@localhost]$ ipython notebook --ip=\* --port=8080
[W 16:01:11.273 NotebookApp] WARNING: The notebook server is listening on all IP addresses and not using encryption. This is not recommended.
[W 16:01:11.273 NotebookApp] WARNING: The notebook server is listening on all IP addresses and not using authentication. This is highly insecure and not recommended.
[I 16:01:11.276 NotebookApp] Serving notebooks from local directory: /disk/disk1/snaga
[I 16:01:11.276 NotebookApp] 0 active kernels
[I 16:01:11.276 NotebookApp] The IPython Notebook is running at: http://[all ip addresses on your system]:8080/
[I 16:01:11.276 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

と起動してブラウザから接続できるようにします。

■PostgreSQLデータベースへの接続

まず、sql拡張をロードして、PostgreSQLへ接続します。

%load_ext sql
%sql postgresql://snaga@localhost/testdb

「Connected」と表示されたら成功です。

■クエリの実行

クエリを実行するには、「%sql」に続けてクエリを入力します。

%sql select table_catalog,table_schema,table_name,table_type from information_schema.tables where table_schema = 'public'
%sql select count(*) from orders

SQLの実行だけを行うと、その結果が表形式で表示されます。

■問い合わせ結果の利用

問い合わせ結果は「_」という変数に格納されていますので、これを取り出します。

ここでは、顧客ごとの売り上げを集計するクエリを実行し、その後で変数 res に結果を取り出します。

 # https://pypi.python.org/pypi/ipython-sql
%config SqlMagic.displaylimit=5

%sql select c_name,sum(o_totalprice) from customer left outer join orders on c_custkey = o_custkey group by c_name order by 2 desc

res = _

■問い合わせ結果の可視化

最後にmatplotlibを使って可視化します。

取り出した問い合わせ結果は普通にfor文で1レコードずつ取り出すことができますし、そのレコードはカラムのリストになっていますので、通常のSQLアクセスと同じようにデータを取り出します。

そして matplotlib に渡してグラフを描画します。

import matplotlib.pyplot as plt
%matplotlib inline

x = [rr[0] for rr in res]
y = [rr[1] for rr in res]

plt.bar(range(len(x)), y)

matplotlibの詳細については、長くなるのでここでは割愛します。（というか、私もまだ詳しくないので・・・）

■まとめ

今回は、Jupyter Notebookから直接SQLを発行して取得したデータを可視化する方法を試してみました。

Jupyter Notebookは探索的にデータを分析したり、作業の過程を記録に残したりするのに非常に便利です。また、matplotlibはさまざまなチャートを描くことができます。

ぜひ、このようなツールを活用しつつ、データでいろいろ遊んでみていただければと思います。

私ももう少しmatplotlibを活用できるように勉強をしてみようと思います。

では。

■参考文献

現代のエンジニアのための強力なメモ帳 Jupyter notebookのすゝめ - クックパッド開発者ブログ
http://techlife.cookpad.com/entry/write-once-share-anywhare
Jupyter notebookでMySQLに接続する - Qiita
http://qiita.com/shrkw/items/c38def7d60b0099b0c55
Jupyter から PostgreSQL に接続 - Qiita
http://qiita.com/kshigeru/items/d5554c6d41cedf471a91
ipython-sql 0.3.8 : Python Package Index
https://pypi.python.org/pypi/ipython-sql

PostgreSQL 9.5日本語マニュアルの検索システムをリリースしました（追記あり）

2016-10-01T17:07:00.001+09:00

PostgreSQL 9.5の日本語マニュアルの検索システムをリリースしたので、ご紹介します。

PostgreSQL 9.5 マニュアル検索
http://snaga-lab.mybluemix.net/static/pgdoc/index.html

少し前からPostgreSQLのマニュアルを細かく調べる必要性が出てきたのですが、ご存じの通り、PostgreSQLのオンラインのマニュアルはGoogleと相性が良くありません。

本当はgrep -cでもいいくらいの機能なのですが、公開されているフォーマットがHTML、マニュアルのソースファイルはSGMLファイルなので、実際にそのままgrepしても、見栄え的にあまり嬉しくありません。

そのため、自分の開発の練習もかねてWebアプリとして作ってみました。

■マニュアル検索システムの機能

検索システムのURLは以下です。

PostgreSQL 9.5 マニュアル検索
http://snaga-lab.mybluemix.net/static/pgdoc/index.html

検索対象となるのは、日本PostgreSQLユーザ会が翻訳して以下で公開しているPostgreSQL 9.5の日本語マニュアルで、リリースノートと索引を除いたページです。

PostgreSQL 9.5.4文書
http://www.postgresql.jp/document/9.5/html/index.html

マニュアルのページ自体は、日本PostgreSQLユーザ会のマニュアルをオンラインで参照する形になっています。

検索キーワードを入力すると、キーワードが合致した回数が多いページから順に表示します。検索結果のページタイトルの右側に表示されている数字は、キーワードが合致した回数です。1回でも合致したページはすべて表示します。

また、複数のキーワードをスペースで区切って入力することで、OR検索またはAND検索ができます。OR検索では、「いずれかのキーワードを含むページ」を表示します。AND検索では「すべてのキーワードを含むページ」を表示します。

OR検索の場合は「単語単語」のように単にスペースで区切って入力してください。AND検索の場合には「単語 +単語」のように、いずれかの単語の最初にプラス記号を付加してください。プラス記号を付加するとAND検索に切り替わります。

「性能」や「パフォーマンス」などのように言い換えた言葉で記載されている個所をすべて確認したい場合にはOR検索を使うといいでしょう。一方で、「ログ」、「アーカイブ」のように異なる単語で絞り込む場合には、AND検索を使うといいでしょう。

単語の出現回数をもとにランキングする仕組みであるため、ページの長さでnormalize（単語の出現回数を文書の長さで割る）しようかとも思ったのですが、「長いページである」というのもひとつの情報であり、そのままにした方がより価値があると考えたためnormalizeはしていません。

■検索の仕組み

この検索システムは、Python用のWebフレームワークであるFlaskを使ったWebアプリケーションとして実装されています。

以前のエントリで紹介したように、PostgreSQLのマニュアルをwgetで取得、データベースに格納して、HTMLからプレーンテキストに変換し、それを検索対象としています。

TF-IDFでデータベース内の類似テキストを検索する Part 2 （実践編）
http://pgsqldeepdive.blogspot.jp/2016/07/tf-idf-part-2.html

今回のテーブルは以下の通りです。

testdb=> \d pgdoc
                            Table "public.pgdoc"
  Column  |  Type   |                       Modifiers
----------+---------+-------------------------------------------------------
 docid    | integer | not null default nextval('pgdoc_docid_seq'::regclass)
 filename | text    | not null
 html     | text    | not null
 plain    | text    |
 title    | text    |
Indexes:
    "pgdoc_pkey" PRIMARY KEY, btree (docid)

ページごとのスコア（キーワード出現回数）を取得するために、ドキュメントとキーワードのtext配列を渡すと、合致した回数をスコアとして返却するPL/PythonのSQL関数を作成します。

CREATE OR REPLACE FUNCTION pgdoc_score(doc text, q text[])
  RETURNS float8
AS $$
  import re

  score = 0
  for t in q:
    f = re.findall(t, doc, flags=re.IGNORECASE)
    score += len(f)

  return score
$$
LANGUAGE 'plpython2u';

この関数は、以下のように大文字小文字を違いを無視して、キーワードが合致した回数を返却します。

testdb=> SELECT pgdoc_score('foo foo bar bar bar', '{"foo", "BAR"}');
 pgdoc_score
-------------
           5
(1 row)

testdb=>

このSQL関数を使って、指定したキーワードに対するスコアを取得し、それをスコア順に並べ替えて表示しています。

testdb=> SELECT docid,filename,title,pgdoc_score(plain, '{WAL}') FROM pgdoc ORDER BY 4 DESC LIMIT 5;
 docid |            filename             |                           title                            | pgdoc_score
-------+---------------------------------+------------------------------------------------------------+-------------
  1181 | continuous-archiving.html       | 24.3. 継続的アーカイブとポイントインタイムリカバリ（PITR） |          85
   178 | runtime-config-wal.html         | 18.5. ログ先行書き込み（WAL）                              |          77
    69 | warm-standby.html               | 25.2. ログシッピングスタンバイサーバ                       |          70
   907 | wal-configuration.html          | 29.4. WALの設定                                            |          56
  1011 | runtime-config-replication.html | 18.6. レプリケーション                                     |          40
(5 rows)

■pg_bigmを試してみる

なお、全文検索ということでpg_bigmを使ってみたのですが、これくらいの文章量だと少なすぎてインデックスをうまく使ってくれませんでした。実行プランを見ても、シーケンシャルスキャンの方がコストが低いと判断されているようです。

testdb=> CREATE INDEX pgdoc_plain_idx ON pgdoc USING GIN (plain gin_bigm_ops);
CREATE INDEX
testdb=> EXPLAIN ANALYZE SELECT
testdb->   docid,
testdb->   title,
testdb->   filename,
testdb->   pgdoc_score(plain,'{ログ,アーカイブ}')
testdb-> FROM
testdb->   pgdoc
testdb-> WHERE
testdb->   docid in (SELECT docid FROM pgdoc WHERE (plain ILIKE '%ログ%' AND plain ILIKE '%アーカイブ%')  AND filename NOT LIKE 'release-%' AND filename <> 'bookindex.html')
testdb-> ORDER BY
testdb->   4 DESC;
                                                                              QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Sort  (cost=170.75..170.75 rows=1 width=755) (actual time=201.327..201.362 rows=38 loops=1)
   Sort Key: (pgdoc_score(pgdoc.plain, '{ログ,アーカイブ}'::text[]))
   Sort Method: quicksort  Memory: 30kB
   ->  Nested Loop  (cost=0.28..170.74 rows=1 width=755) (actual time=2.166..201.201 rows=38 loops=1)
         ->  Seq Scan on pgdoc pgdoc_1  (cost=0.00..162.18 rows=1 width=4) (actual time=1.387..169.877 rows=38 loops=1)
               Filter: ((plain ~~* '%ログ%'::text) AND (plain ~~* '%アーカイブ%'::text) AND (filename !~~ 'release-%'::text) AND (filename <> 'bookindex.html'::text))
               Rows Removed by Filter: 1271
         ->  Index Scan using pgdoc_pkey on pgdoc  (cost=0.28..8.30 rows=1 width=755) (actual time=0.004..0.006 rows=1 loops=38)
               Index Cond: (docid = pgdoc_1.docid)
 Planning time: 1.654 ms
 Execution time: 201.443 ms
(11 行)

enable_seqscanパラメータをoffにして強制的にインデックスを使うようにしてみましたが、それでもpg_bigmのインデックスではなく主キーのインデックスが使われてしまいました。しかも推定コストはこちらの方が高く、実際の実行時間もほとんど変わりませんでした。

testdb=> set enable_seqscan TO off;
SET
testdb=> EXPLAIN ANALYZE SELECT
testdb->   docid,
testdb->   title,
testdb->   filename,
testdb->   pgdoc_score(plain,'{ログ,アーカイブ}')
testdb-> FROM
testdb->   pgdoc
testdb-> WHERE
testdb->   docid in (SELECT docid FROM pgdoc WHERE (plain ILIKE '%ログ%' AND plain ILIKE '%アーカイブ%')  AND filename NOT LIKE 'release-%' AND filename <> 'bookindex.html')
testdb-> ORDER BY
testdb->   4 DESC;
                                                                              QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Sort  (cost=381.05..381.05 rows=1 width=755) (actual time=200.820..200.854 rows=38 loops=1)
   Sort Key: (pgdoc_score(pgdoc.plain, '{ログ,アーカイブ}'::text[]))
   Sort Method: quicksort  Memory: 30kB
   ->  Nested Loop  (cost=0.56..381.04 rows=1 width=755) (actual time=3.918..200.702 rows=38 loops=1)
         ->  Index Scan using pgdoc_pkey on pgdoc pgdoc_1  (cost=0.28..372.48 rows=1 width=4) (actual time=3.136..169.352 rows=38 loops=1)
               Filter: ((plain ~~* '%ログ%'::text) AND (plain ~~* '%アーカイブ%'::text) AND (filename !~~ 'release-%'::text) AND (filename <> 'bookindex.html'::text))
               Rows Removed by Filter: 1271
         ->  Index Scan using pgdoc_pkey on pgdoc  (cost=0.28..8.30 rows=1 width=755) (actual time=0.004..0.005 rows=1 loops=38)
               Index Cond: (docid = pgdoc_1.docid)
 Planning time: 1.672 ms
 Execution time: 200.934 ms
(11 行)

（10/02 14:25追記）

と思っていたのですが、よくよく調べてみたら、pg_bigmは「LIKE」には対応しているけれども、「ILIKE」には対応していないようです。

pg_bigm 1.1 ドキュメント
http://pgbigm.osdn.jp/pg_bigm-1-1.html

それが原因で、pg_bigmのインデックスが使われなかったようです。

そのため、検索対象となるカラム plain のアルファベットをすべて小文字に変換して、クエリで検索する文字列もすべて小文字に揃えた上で、「ILIKE」から「LIKE」に変更したら、無事にpg_bigmのインデックスを使ってくれるようになりました。

testdb=> EXPLAIN ANALYZE SELECT
testdb->   docid,
testdb->   title,
testdb->   filename,
testdb->   pgdoc_score(plain,'{ログ,アーカイブ}')
testdb-> FROM
testdb->   pgdoc
testdb-> WHERE
testdb->   docid in (SELECT docid FROM pgdoc WHERE (plain LIKE '%ログ%' AND plain LIKE '%アーカイブ%')  AND filename NOT LIKE 'release-%' AND filename <> 'bookindex.html')
testdb-> ORDER BY
testdb->   4 DESC;
                                                              QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------------------
 Sort  (cost=76.59..76.59 rows=1 width=625) (actual time=53.287..53.321 rows=38 loops=1)
   Sort Key: (pgdoc_score(pgdoc.plain, '{ログ,アーカイブ}'::text[]))
   Sort Method: quicksort  Memory: 30kB
   ->  Nested Loop  (cost=64.28..76.58 rows=1 width=625) (actual time=1.553..53.171 rows=38 loops=1)
         ->  Bitmap Heap Scan on pgdoc pgdoc_1  (cost=64.00..68.02 rows=1 width=4) (actual time=0.427..21.555 rows=38 loops=1)
               Recheck Cond: ((plain ~~ '%ログ%'::text) AND (plain ~~ '%アーカイブ%'::text))
               Rows Removed by Index Recheck: 2
               Filter: ((filename !~~ 'release-%'::text) AND (filename <> 'bookindex.html'::text))
               Rows Removed by Filter: 45
               Heap Blocks: exact=38
               ->  Bitmap Index Scan on pgdoc_plain_idx  (cost=0.00..64.00 rows=1 width=0) (actual time=0.124..0.124 rows=85 loops=1)
                     Index Cond: ((plain ~~ '%ログ%'::text) AND (plain ~~ '%アーカイブ%'::text))
         ->  Index Scan using pgdoc_pkey on pgdoc  (cost=0.28..8.30 rows=1 width=625) (actual time=0.004..0.006 rows=1 loops=38)
               Index Cond: (docid = pgdoc_1.docid)
 Planning time: 1.264 ms
 Execution time: 53.417 ms
(16 rows)

というわけで、検索も高速化（200ms→50ms）したことなので、pg_bigmを使うように修正しました。

■まとめ

今回は、PostgreSQLで構築したPostgreSQLの日本語マニュアルの検索システムをご紹介しました。

PostgreSQLを使いこんでくると、パラメータ名などでマニュアルを隅々まで検索したい、といったニーズが出てくることがあります。

Googleなどの検索エンジンでざっくりと検索するだけでは検索の精度が足りないケースが出てくると思いますので、そのような場合に活用していただければと思います。

では、また。

MADlib 1.9.1 Release (GA)がリリースされました

2016-09-22T18:23:00.000+09:00

このブログでも何度か紹介しているPostgreSQLのデータベース内で機械学習の処理を行えるApache MADlibですが、1.9.1 GAがリリースされました。

Apache MADlib (incubating): Big Data Machine Learning in SQL
http://madlib.incubator.apache.org/

前のリリース1.9からの変更点は、以下のようになっています。

New function: One class SVM
SVM: Added functionality to assign weights to each class, simplying classification of unbalanced data.
New function: Prediction metrics
New function: Sessionization
New function: Pivot
Path: Major performance improvement
Path: Add support for overlapping patterns
Build: Add support for PG 9.5 and 9.6
PGXN: Update PostgreSQL Extension Network to latest release

私の送ったパッチも取り込まれて、無事に最新のPostgreSQL 9.5と、パラレルクエリを実装した次期バージョンである9.6でも動作するようになりました。

興味のある方は、ぜひ試してみていただければと思います。

以下のエントリあたりが参考になればと思います。

データ分析用ライブラリ MADlib を使って PostgreSQL で機械学習する
http://pgsqldeepdive.blogspot.jp/2016/04/madlib-postgresql.html
TF-IDFでデータベース内の類似テキストを検索する Part 4 （MADlib svec編）
http://pgsqldeepdive.blogspot.jp/2016/07/tf-idf-part-4-madlib-svec.html

では、また。

巡回セールスマン問題における最短経路をpgRoutingで探索する

2016-09-17T18:11:00.000+09:00

先日、PostgreSQLアンカンファレンスを開催した際、「pgRoutingを使って巡回セールスマン問題を解く」という発表を国府田さんがされていました。

第8回 PostgreSQLアンカンファレンス＠東京（2016/9/10） - connpass
http://pgunconf.connpass.com/event/37285/
第8回 PostgreSQLアンカンファレンスツイートまとめ - Togetterまとめ
http://togetter.com/li/1023030

非常に面白そうな機能で、私も少し使ってみましたので、今回はその使い方や使用例などを含めてご紹介します。

■「巡回セールスマン問題」とは何か

「巡回セールスマン問題」というのは、以下のようなものです。

巡回セールスマン問題（じゅんかいセールスマンもんだい、英: traveling salesman problem、TSP）は、都市の集合と各2都市間の移動コスト（たとえば距離）が与えられたとき、全ての都市をちょうど一度ずつ巡り出発地に戻る巡回路の総移動コストが最小のものを求める（セールスマンが所定の複数の都市を1回だけ巡回する場合の最短経路を求める）組合せ最適化問題である。
巡回セールスマン問題 - Wikipedia

簡単に言うと、「セールスマンが何か所か回る時、回る場所が増えれば増えるほど、可能性のある経路の候補が爆発的に増えていくので、最短経路を導き出すのが困難になる」ということです。回る場所の数「n」に対して、計算量はその階乗「n!」のオーダーとなります。

そのため、データ量が増えると総当たりで解くことが計算量的に困難になる問題のひとつとして知られています。

■「pgRouting」とは何か

pgRoutingは、PostgreSQLおよびPostGISの拡張で、PostgreSQL/PostGISの地理空間データベースの機能に経路探索（routing）の機能を追加するライブラリです。

pgRouting Project — Open Source Routing Library
http://pgrouting.org/

プロジェクトの紹介文によると、

さまざまなクライアント（ライブラリ）を通してデータや属性を加工可能。
データの変更はすぐに経路探索に反映される。事前の計算などは不要。
「コスト」のパラメータは動的にSQLで計算され、テーブルのフィールドやレコードから取得可能。

となっています。

経路探索のアルゴリズムはいろいろあるようで、コアの機能としては以下のようなアルゴリズムを使うことができます。

All Pairs Shortest Path, Johnson’s Algorithm
All Pairs Shortest Path, Floyd-Warshall Algorithm
Shortest Path A*
Bi-directional Dijkstra Shortest Path
Bi-directional A* Shortest Path
Shortest Path Dijkstra
Driving Distance
K-Shortest Path, Multiple Alternative Paths
K-Dijkstra, One to Many Shortest Path
Traveling Sales Person
Turn Restriction Shortest Path (TRSP)

今回は、この中から巡回セールスマン問題（Traveling Sales Person）を解くための関数を使ってみます。

■pgRoutingのpgr_tsp関数

今回使用するpgRoutingの関数はpgr_tspです。

pgr_tsp - Traveling Sales Person — pgRouting Manual (2.2)
http://docs.pgrouting.org/2.2/en/src/tsp/doc/pgr_tsp.html

この関数は Simulated Annealing（焼きなまし法）という方法で、最短経路を探索します。

焼きなまし法 - Wikipedia
https://ja.wikipedia.org/wiki/%E7%84%BC%E3%81%8D%E3%81%AA%E3%81%BE%E3%81%97%E6%B3%95

この関数は2つの使い方があります。ユークリッド距離を使って2点間の距離を計算して最短経路を探す方法と、各点間の距離をあらかじめ行列として定義したものを与えて最短経路を探す方法です。

まず、ユークリッド距離を使う方法ですが、引数にSQL文を渡す必要があり、このSQL文は「id, x, y」というカラムを返却するSQL文である必要があります。

pgr_costResult[] pgr_tsp(sql text, start_id integer);
pgr_costResult[] pgr_tsp(sql text, start_id integer, end_id integer);

もう一つの各点間の距離を行列で与える場合には、float型の二次元配列として与えます。

record[] pgr_tsp(matrix float[][], start integer)
record[] pgr_tsp(matrix float[][], start integer, end integer)

今回は、前者のユークリッド距離を使うバージョンを使います。

まず、以下のように位置情報をx,yとして持つテーブルを作成しておきます。

pgr=>  CREATE TABLE vertex_table (
pgr(>      id serial,
pgr(>      x double precision,
pgr(>      y double precision
pgr(>  );
CREATE TABLE
pgr=>
pgr=>  INSERT INTO vertex_table VALUES
pgr->  (1,2,0), (2,2,1), (3,3,1), (4,4,1), (5,0,2), (6,1,2), (7,2,2),
pgr->  (8,3,2), (9,4,2), (10,2,3), (11,3,3), (12,4,3), (13,2,4);
INSERT 0 13
pgr=> SELECT * FROM vertex_table;
 id | x | y
----+---+---
  1 | 2 | 0
  2 | 2 | 1
  3 | 3 | 1
  4 | 4 | 1
  5 | 0 | 2
  6 | 1 | 2
  7 | 2 | 2
  8 | 3 | 2
  9 | 4 | 2
 10 | 2 | 3
 11 | 3 | 3
 12 | 4 | 3
 13 | 2 | 4
(13 rows)

pgr=>

この位置情報のテーブルから「id,x,y」を取得するSQL文を与えて、pgr_tspを実行すると、以下のように最短経路を表示してくれます。

pgr=>  SELECT seq, id1, id2, cost FROM pgr_tsp('SELECT id, x, y FROM vertex_table ORDER BY id', 6, 5);
 seq | id1 | id2 |       cost
-----+-----+-----+------------------
   0 |   5 |   6 |                1
   1 |   6 |   7 |                1
   2 |   7 |   8 |  1.4142135623731
   3 |   9 |  10 |                1
   4 |  12 |  13 |  1.4142135623731
   5 |  10 |  11 |                1
   6 |  11 |  12 |                1
   7 |   8 |   9 |                1
   8 |   3 |   4 |                1
   9 |   2 |   3 |  1.4142135623731
  10 |   0 |   1 |                1
  11 |   1 |   2 | 2.23606797749979
  12 |   4 |   5 |                1
(13 rows)

pgr=>

出力で重要なのは「seq、id2、cost」です。seqは経路の順番、id2はノードのid（vertex_tableのidカラム）、costは次のノードに移動するためのコスト（距離）です。

■聖地巡礼の最短経路探索問題

世間では今、映画「君の名は。」が大ヒットしています。（唐突感）

アニメのヒット作には、聖地の存在が欠かせません。そしてそのファンは聖地巡礼をすることになっています（？）。

しかし、聖地といってもたくさんありますし、時間は限られていますので、効率よく回ることが求められてきます。巡るべき聖地が増えれば増えるほど計算量が爆発的に増大し、最短経路を求めることが困難になってきます。多分。

というわけで、「君の名は。」の聖地を巡礼するための最短経路を巡回セールスマン問題としてpgRoutingを使って探索してみます。（手段の目的化）

なお、本エントリはここからが本題です。

■PostGIS/pgRoutingとpykmlのインストール

まず、PostGIS/pgRoutingをインストールします。

PostgreSQLコミュニティのyumレポジトリを使っている場合には以下のコマンドでインストールできます。今回はPostgreSQL 9.5と一緒に使っています。

$ sudo yum install -y postgis2_95 pgrouting_95
(...)
$ rpm -qa | grep pgrouting
pgrouting_95-2.0.1-1.rhel6.x86_64
$ rpm -qa | grep postgis
postgis2_95-2.2.2-1.rhel6.x86_64
$

また、三次元地理空間情報のデータ形式であるKMLファイルを扱うPythonのライブラリpykmlもインストールします。

$ sudo pip install pykml
(...)
$ pip list | grep pykml
pykml (0.1.0)
$

インストールが終わったら、今回使うデータベースにPostGISとpgRoutingのEXTENSIONをインストールします。

pgr=# create extension postgis;
CREATE EXTENSION
pgr=# create extension pgrouting;
CREATE EXTENSION
pgr=# \d
               List of relations
 Schema |       Name        | Type  |  Owner
--------+-------------------+-------+----------
 public | geography_columns | view  | postgres
 public | geometry_columns  | view  | postgres
 public | raster_columns    | view  | postgres
 public | raster_overviews  | view  | postgres
 public | spatial_ref_sys   | table | postgres
(5 rows)

pgr=#

■データの準備をする

最初、自分で聖地の位置情報のデータを作成しようかとも思っていたのですが、いろいろ探していたらGoogle Mapsに「君の名は。」の聖地マップが公開されていましたので、今回はこれを使います。

【君の名は。】聖地巡礼マップ【8/31現在】
https://www.google.com/maps/d/u/0/viewer?mid=1Y_ioR8c1iCSR-t7qTN3Yl1qhAUw&hl=en_US

まず、この聖地マップを自分のアカウントにコピーしてきます。

コピーの方法は、マップの右上にあるプルダウンメニューから「Copy map」を選ぶだけです。

次に、聖地マップのデータをKML形式でエクスポートします。

コピーの時と同じく、プルダウンメニューから「Download KML」を選んで、マップ全体のデータをKMLとしてダウンロードして保存します。

エクスポートしたKMLファイルは以下のようなXMLファイルになっているはずです。

$ head Copy\ of\ 【君の名は。】聖地巡礼マップ【831現在】.kml
<?xml version='1.0' encoding='UTF-8'?>
<kml xmlns='http://www.opengis.net/kml/2.2'>
        <Document>
                <name>Copy of 【君の名は。】聖地巡礼マップ【8/31現在】</name>
                <description><![CDATA[]]></description>
                <Folder>
                        <name>無題のレイヤ</name>
                        <Placemark>
                                <name>予告映像カット
</name>
$

次に、KMLファイルの中に含まれている位置情報をPostgreSQLに投入するためのINSERT文に変換します。

今回テーブルは以下の構造にします。

CREATE TABLE seichi (
  sid serial primary key,
  name text not null,
  descr text,
  img text,
  lat float8 not null,
  lon float8 not null
);

sidはシーケンス番号、nameはGoogle Mapsに登録されていた名前、descrは説明文です。imgは位置の画像が設定されたいた場合のURL、lat/lonは緯度経度をfloat8の精度で持ちます。

場所の情報はKMLファイル内の「Placemark」というタグに囲まれていますので、この情報を取得します。

KMLファイルの解析はpykmlモジュールを使って行います。

Welcome to pyKML — pyKML v0.1.0 documentation
https://pythonhosted.org/pykml/

kml_to_sql.pyスクリプトにKMLファイルを引数として渡すと、KMLファイル内のPlacemarkのデータをINSERT文に変換して以下のように出力します。

$ python kml_to_sql.py Copy\ of\ 【君の名は。】聖地巡礼マップ【831現在】.kml  > ins.sql
$ head ins.sql
INSERT INTO seichi (name,descr,img,lat,lon) VALUES
    ('予告映像カット','新宿警察署裏交差点','',139.6944129,35.6925938)
  , ('君の名は。第1弾キービジュアル','瀧が立っている横断歩道の背景建物','https://blogger.googleusercontent.com/img/proxy/AVvXsEgLXxyhLQGYjVApXbrHHFw6IQRERj_ElP9jq75ll8YSfZgTToH4FBtM0n5tX5T2hSzDf0E3SZoZAl2mghpnwqvhM-h5XfPChG5Nyj1FrE5G06KFP4ddvnajkQDWHXgRU59VRY8RvW9_rupQI1sR_aylQ8M_w6-TfJMk=',139.723177,35.6607657)
  , ('三葉が座っていた総武線ホームのベンチ','','https://blogger.googleusercontent.com/img/proxy/AVvXsEjs-Qf1ula5UcaavKPNgW5l1RrPOblkLW8M_nRWTB2PeNVwCnlApcOEpyeCbWHKU2k3fCFFZGChkPbFPYK152VboPYJRZ478d09RMisUsKnzh7QxyQ7dATT7oGQvuQrS0qqZWHmau5rluf3SaBk6-RaAIwhdPpOBBbp=',139.7020626,35.6840715)
  , ('瀧と奥寺先輩がお茶していたスタバ','看板TSUTAYAのTSUの部分にあたるカウンター席','https://blogger.googleusercontent.com/img/proxy/AVvXsEjJovc3KVdT6rnstEyq4eZOWc_r_WCuZNXm57S6nuA24SKQ-C-GZChGQnTsqGUJOj-F-qkYvmcEFEytmTLdLYJ6bEQ_2ErDThFYRZFv_HNZho-BQOhRkzUDUpDjiU-es86G0H86fSYcadNB6ro8q7bZbRF-25PU2vWG=',139.7003701,35.6598526)
  , ('君の名は。第1弾キービジュアル','背景の六本木ヒルズ','',139.7293139,35.6603647)
  , ('君の名は。第1弾キービジュアル','背景の東京ミッドタウンビル','',139.7312933,35.6662877)
  , ('君の名は。第1弾キービジュアル','瀧が立っている横断道','',139.7228122,35.6613584)
  , ('道路標識案内板','瀧と奥寺先輩が別れる歩道橋についている道路標識案内板','https://blogger.googleusercontent.com/img/proxy/AVvXsEig76fE_x43p9U6vuYakLKM1xZkH-TgIosQ9dl7hAAb0NxvaCys-MuIIzeby4ElYN0xCMyGSRkKZ8KTDCyaXT3acNn8D5iFdR8FKLecoXTTrepfY86ITUhHA_NFPTa8vtoN2iIAhZ_dpNd-7_FnFhs-4t_yXvqyKTd9=',139.7233808,35.6743456)
  , ('歩道橋背景1','瀧と奥寺先輩が別れる歩道橋の背景','https://blogger.googleusercontent.com/img/proxy/AVvXsEg0KNNAo6DX5jUntHLJw-Cen_ySf035voZcrPRCPAQbIldwNNFERUcZ7ixRdaw9PiLcaCY2NP6aoekUvtMCeTqM6M0CEBMKl5fDDdP_NI91NlQgjrEVmGCZWB2mPxiMaZhRvet_vfklN9T6GTXuRP86mg_E26luvq2fyus=',139.7238582,35.6723802)
$

そして、作成したテーブルにINSERT文でデータを流し込みます。

$ psql -f ins.sql pgr
INSERT 0 38
$

データができたことを確認したら、準備は完了です。

pgr=> \x
Expanded display is on.
pgr=> select * from seichi limit 3;
-[ RECORD 1 ]-----------------------------------------------------------------------------------------------------------------------------------------
sid   | 1
name  | 予告映像カット
descr | 新宿警察署裏交差点
img   |
lat   | 139.6944129
lon   | 35.6925938
-[ RECORD 2 ]-----------------------------------------------------------------------------------------------------------------------------------------
sid   | 2
name  | 君の名は。第1弾キービジュアル
descr | 瀧が立っている横断歩道の背景建物
img   | https://blogger.googleusercontent.com/img/proxy/AVvXsEgLXxyhLQGYjVApXbrHHFw6IQRERj_ElP9jq75ll8YSfZgTToH4FBtM0n5tX5T2hSzDf0E3SZoZAl2mghpnwqvhM-h5XfPChG5Nyj1FrE5G06KFP4ddvnajkQDWHXgRU59VRY8RvW9_rupQI1sR_aylQ8M_w6-TfJMk=
lat   | 139.723177
lon   | 35.6607657
-[ RECORD 3 ]-----------------------------------------------------------------------------------------------------------------------------------------
sid   | 3
name  | 三葉が座っていた総武線ホームのベンチ
descr |
img   | https://blogger.googleusercontent.com/img/proxy/AVvXsEjs-Qf1ula5UcaavKPNgW5l1RrPOblkLW8M_nRWTB2PeNVwCnlApcOEpyeCbWHKU2k3fCFFZGChkPbFPYK152VboPYJRZ478d09RMisUsKnzh7QxyQ7dATT7oGQvuQrS0qqZWHmau5rluf3SaBk6-RaAIwhdPpOBBbp=
lat   | 139.7020626
lon   | 35.6840715

pgr=>

■聖地巡礼の最短経路を求める

それでは、聖地巡礼の最短経路を巡回セールスマン問題として探索してみます。

前述したように、pgr_tsp関数にユークリッド距離を使って計算させます。

pgr_tspに与えるクエリは

SELECT sid id, lat x, lon y FROM seichi ORDER BY sid

となります（エイリアスでカラム名を指定）。

pgr_tsp関数に与える2つ目の引数は、スタートの点のidを示しています。（今回は1番目から出発）

さて、クエリを実行してみましょう。

pgr=> SELECT * FROM pgr_tsp('SELECT sid id, lat x, lon y FROM seichi ORDER BY sid', 1);
 seq | id1 | id2 |         cost
-----+-----+-----+----------------------
   0 |   0 |   1 |  0.00276786017347617
   1 |  16 |  17 |  0.00336861318052751
   2 |  21 |  22 |  0.00418150821235386
   3 |  26 |  27 |  0.00070285384682649
   4 |  18 |  19 |  0.00103679575616323
   5 |  17 |  18 | 0.000724005262411046
   6 |  14 |  15 |  0.00040594088239891
   7 |  25 |  26 |  0.00420010183685812
   8 |   2 |   3 |  0.00965949435530557
   9 |  19 |  20 |  0.00786443285746516
  10 |  24 |  25 |  0.00638462619110202
  11 |  30 |  31 | 0.000613460422526542
  12 |  31 |  32 |   0.0020755731593899
  13 |  36 |  37 |  0.00521034970899676
  14 |  34 |  35 |  0.00453278438158901
  15 |  23 |  24 |  0.00214997988828621
  16 |  22 |  23 |  0.00338756302081414
  17 |  20 |  21 |  0.00901689128802769
  18 |  13 |  14 | 4.29288947063113e-05
  19 |  33 |  34 |  0.00758742562995817
  20 |  35 |  36 |  0.00655833544277088
  21 |  37 |  38 |  0.00662867080567097
  22 |  32 |  33 |   0.0076538252201047
  23 |  29 |  30 | 0.000494603275347511
  24 |  28 |  29 |  0.00116522954392147
  25 |  11 |  12 |  0.00340343115400377
  26 |  12 |  13 |  0.00387475855377472
  27 |   7 |   8 |  0.00202254985600024
  28 |   8 |   9 | 0.000924678733398354
  29 |   9 |  10 |  0.00108906486492197
  30 |  10 |  11 |  0.00636705982066888
  31 |  15 |  16 |  0.00573513230013025
  32 |   4 |   5 |  0.00657719868789178
  33 |   6 |   7 |   0.0222159042861008
  34 |  27 |  28 |  0.00284098090455204
  35 |   3 |   4 |   0.0228251711761441
  36 |   1 |   2 |  0.00981665980311944
  37 |   5 |   6 |   0.0453009359877922
(38 rows)

pgr=>

最短経路が出ました。id2カラムの順番に巡礼していけば、最短経路で聖地巡礼ができることになります。

なお、これだけではちょっと分かりづらいので、元の地理のデータをJOINしてnameとdescrを表示してみましょう。（不要なid1とcostカラムも省きます）

pgr=> SELECT
pgr->   t.seq,
pgr->   t.id2,
pgr->   s.name,
pgr->   s.descr
pgr-> FROM
pgr->   pgr_tsp('SELECT sid id, lat x, lon y FROM seichi ORDER BY sid', 1) t
pgr->     LEFT OUTER JOIN seichi s ON t.id2 = s.sid;
 seq | id2 |                       name                       |                                                          descr
-----+-----+--------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------
   0 |   1 | 予告映像カット                                   | 新宿警察署裏交差点
   1 |  17 | オープニング                                     | ・作中のオープニングの背景・大人になった瀧と三葉がすれ違う歩道橋
   2 |  22 | ユニカビジョン                                   |
   3 |  27 | 大人になった瀧が走り出てくる改札                 | 三葉を探しに飛び出す南口改札
   4 |  19 | 瀧の通学路＆大人になった瀧が走っていく場所       | ・はじめて瀧と入れ替わった三葉が学校へ向かう通ったルミネのショップウィンドウ沿い・大人になった瀧が三葉を探しに走っていく
   5 |  18 | 作中背景                                         | 連絡橋からバルト９方面
   6 |  15 | 風景カット                                       | サザンテラス口店　スタバの入口階段と手前の花壇
   7 |  26 | 大人になった瀧が来ていたスタバ                   | ここで式の話をしている大人になったテッシーとさやちんが登場
   8 |   3 | 三葉が座っていた総武線ホームのベンチ             |
   9 |  20 | 大人の三葉                                       | ラスト、　瀧を見つけた大人の三葉が駆け出してくる千駄ヶ谷駅の改札
  10 |  25 | 走る三葉                                         | 大人になった三葉が瀧を見つけに走って通る場所
  11 |  31 | 君の名は。　第2弾キービジュアル&作中ラストシーン | 瀧と三葉がすれ違う階段・物語の最後のシーン
  12 |  32 | 十字路                                           | みつはが走ってくるシーン
  13 |  37 | 風景カット                                       | 道路標識
  14 |  35 | 瀧が息を整える場所                               |
  15 |  24 | 瀧と奥寺先輩が四ッ谷駅方面を眺める場所           | 就活中の瀧と奥寺先輩
  16 |  23 | 瀧（大人）と奥寺先輩が話しながら歩いている道     |
  17 |  21 | 瀧と奥寺先輩のデート                             | 物語終盤、就活中の瀧と奥寺先輩のデートで渡っていた弁慶橋
  18 |  14 | 瀧と奥寺先輩の待ち合わせ1                        | 四ッ谷駅赤坂方面改札
  19 |  34 | 瀧と奥寺先輩の待ち合わせ２                       | アトレの方角
  20 |  36 | 風景カット                                       | 郵便ポスト
  21 |  38 | 風景カット                                       | 四谷三丁目の交差点
  22 |  33 | 分かれ道                                         | 瀧が走っていくシーン
  23 |  30 | 太陽の光とドコモタワー                           |
  24 |  29 | 瀧が立っていた歩道橋                             | JR総武線信濃町駅前の歩道橋
  25 |  12 | 歩道橋背景4                                      | 瀧と奥寺先輩が別れる歩道橋の下に見切れている道路標識板
  26 |  13 | 瀧の通学路                                       | 瀧と司と真太の下校シーン
  27 |   8 | 道路標識案内板                                   | 瀧と奥寺先輩が別れる歩道橋についている道路標識案内板
  28 |   9 | 歩道橋背景1                                      | 瀧と奥寺先輩が別れる歩道橋の背景
  29 |  10 | 歩道橋背景2                                      | 瀧と奥寺先輩が別れる歩道橋
  30 |  11 | 歩道橋背景3                                      | 瀧と奥寺先輩が別れる歩道橋
  31 |  16 | 国立新美術館                                     |
  32 |   5 | 君の名は。第1弾キービジュアル                    | 背景の六本木ヒルズ
  33 |   7 | 君の名は。第1弾キービジュアル                    | 瀧が立っている横断道
  34 |  28 | あおい書店前歩道橋                               | 作中、瀧が数回通っていた歩道橋
  35 |   4 | 瀧と奥寺先輩がお茶していたスタバ                 | 看板TSUTAYAのTSUの部分にあたるカウンター席
  36 |   2 | 君の名は。第1弾キービジュアル                    | 瀧が立っている横断歩道の背景建物
  37 |   6 | 君の名は。第1弾キービジュアル                    | 背景の東京ミッドタウンビル
(38 rows)

pgr=>

「新宿警察署裏交差点」を出発点として、聖地巡礼のルートがより具体的に見えてきました。

■求めた最短経路を可視化する

最後に、この巡礼の経路をGoogle Mapsに取り込んで可視化してみます。

経路を可視化するには、2点間に線を引かなければなりません。Google Maps上で線を引かせるには、出発点の緯度経度と、到着点の緯度経度情報が必要です。ウィンドウ関数の匂いがします。

まず、先ほどのクエリを少し修正して、場所の名前ではなく緯度経度を表示させます。

pgr=> SELECT
pgr->   t.seq,
pgr->   t.id2,
pgr->   s.lat,
pgr->   s.lon
pgr-> FROM
pgr->   pgr_tsp('SELECT sid id, lat x, lon y FROM seichi ORDER BY sid', 1) t
pgr->     LEFT OUTER JOIN seichi s ON t.id2 = s.sid;
 seq | id2 |     lat     |    lon
-----+-----+-------------+------------
   0 |   1 | 139.6944129 | 35.6925938
   1 |  17 | 139.6971166 | 35.6931863
   2 |  22 | 139.7004586 | 35.6936089
   3 |  27 | 139.7002923 | 35.6894307
   4 |  19 | 139.7009951 |  35.689422
(...)
  33 |   7 | 139.7228122 | 35.6613584
  34 |  28 | 139.7010112 | 35.6570849
  35 |   4 | 139.7003701 | 35.6598526
  36 |   2 |  139.723177 | 35.6607657
  37 |   6 | 139.7312933 | 35.6662877
(38 rows)

pgr=>

次に、ウィンドウ関数を使って「前の地点の緯度経度」を表示させます。

pgr=> SELECT
pgr->   t.seq,
pgr->   t.id2,
pgr->   s.lat,
pgr->   s.lon,
pgr->   lag(s.lat) OVER (ORDER BY seq) prev_lat,
pgr->   lag(s.lon) OVER (ORDER BY seq) prev_lon
pgr-> FROM
pgr->   pgr_tsp('SELECT sid id, lat x, lon y FROM seichi ORDER BY sid', 1) t
pgr->     LEFT OUTER JOIN seichi s ON t.id2 = s.sid;
 seq | id2 |     lat     |    lon     |  prev_lat   |  prev_lon
-----+-----+-------------+------------+-------------+------------
   0 |   1 | 139.6944129 | 35.6925938 |             |
   1 |  17 | 139.6971166 | 35.6931863 | 139.6944129 | 35.6925938
   2 |  22 | 139.7004586 | 35.6936089 | 139.6971166 | 35.6931863
   3 |  27 | 139.7002923 | 35.6894307 | 139.7004586 | 35.6936089
   4 |  19 | 139.7009951 |  35.689422 | 139.7002923 | 35.6894307
(...)
  33 |   7 | 139.7228122 | 35.6613584 | 139.7293139 | 35.6603647
  34 |  28 | 139.7010112 | 35.6570849 | 139.7228122 | 35.6613584
  35 |   4 | 139.7003701 | 35.6598526 | 139.7010112 | 35.6570849
  36 |   2 |  139.723177 | 35.6607657 | 139.7003701 | 35.6598526
  37 |   6 | 139.7312933 | 35.6662877 |  139.723177 | 35.6607657
(38 rows)

pgr=>

このデータをPythonスクリプトでKMLファイルに変換します。

tsp_to_kml.pyスクリプトでは、psycopg2を使ってPostgreSQLに接続してデータを取り出し、XMLファイルをベタに書き出します。

このスクリプトの出力を保存すると、以下のようなKMLファイルを得られます。

$ python tsp_to_kml.py > route.kml
$ cat route.kml

<?xml version='1.0' encoding='UTF-8'?>
<kml xmlns='http://www.opengis.net/kml/2.2'>
        <Document>
                <Style id="line-DB4436-5-nodesc">
                        <LineStyle>
                                <color>ff0000ff</color>
                                <width>5</width>
                        </LineStyle>
                </Style>
                <name>Copy of 【君の名は。】聖地巡礼マップ【8/31現在】</name>
                <description><![CDATA[]]></description>
                <Folder>
                        <name>巡礼最短経路</name>

<Placemark>
  <name>Path 1</name>
  <styleUrl>#line-DB4436-5-nodesc</styleUrl>
  <LineString>
    <coordinates>139.6971166,35.6931863,0 139.6944129,35.6925938,0</coordinates>
  </LineString>
</Placemark>

<Placemark>
  <name>Path 2</name>
  <styleUrl>#line-DB4436-5-nodesc</styleUrl>
  <LineString>
    <coordinates>139.7004586,35.6936089,0 139.6971166,35.6931863,0</coordinates>
  </LineString>
</Placemark>
(...)
                </Folder>
        </Document>
</kml>

$

なお、KMLファイルのFolder要素がGoogle Mapsで言うところのレイヤーに当たります。今回は、巡礼の経路情報はすべて「巡礼最短経路」という一つのレイヤーにまとめてあります。

最後に、作成したroute.kmlというKMLファイルを、Google Mapsにインポートします。

まず、地図に「Add layer」でレイヤーを追加します。

次に、作成した新しいレイヤーに「Import」というメニューがありますので、そこをクリックしてKMLファイルをインポートします。

インポートが無事に完了すれば、レイヤーの名前が「巡礼最短経路」となり、経路が地図上に表示されます。

やったぜ可視化！

Copy of 【君の名は。】聖地巡礼マップ【8/31現在】
https://drive.google.com/open?id=1-Q4Bmes5ZAkdKofBral_hGEHxu4&usp=sharing

■まとめ

今回は、複数の緯度経度の情報から、それらを結ぶ最短経路を求める演算をpgRoutingを使って実現しました。

また、KMLファイルをエクスポート・インポートすることで、その演算結果をGoogle Mapsのデータを活用して、可視化できることを示しました。

なお、今回は実現できなかったこととして、以下のようなことがあります。

KMLのエクスポート、インポートをWebAPIでやりたい。（誰か教えてください）
地理的な距離ではなく、所用時間などでコスト計算やってみたい。
総距離や総時間に制限を設けた上で、「制限時間内にできるだけ多く回る」みたいな探索をしてみたい。
など。

演算の部分については、もしかしたらpgRoutingの他の関数などで実現できるかもしれないので、少しずつ調べてみたいと思います。

ぜひ、みなさんも地理情報とPostGISやpgRoutingを使って、何か面白いことにチャレンジしてみていただければと思います。

Enjoy, 聖地巡礼ライフ!!

では、また。

9月10日（土）に第8回PostgreSQLアンカンファレンスを開催します

2016-09-04T13:51:00.000+09:00

開催まであと1週間を切りましたが、9/10にPostgreSQLアンカンファレンスを開催します。多分、8回目くらいだと思います。

第8回 PostgreSQLアンカンファレンス＠東京（2016/9/10） - connpass
http://pgunconf.connpass.com/event/37285/

いつもの通り、プログラムやタイムテーブルは当日集まってから募集して調整します。

PostgreSQLに興味があって、いろんな技術レベルの人が集まっていますので、初めての方もお気軽にご参加ください。

いつもオープニングの時に聞いているのですが、参加者のうち、だいたい2/3くらいは初めて参加の方っぽいですので。

では、来週末お会いしましょう。

【翻訳】 On Uber’s Choice of Databases （データベースにおけるUberの選択について）

2016-08-04T22:53:00.000+09:00

数日前、Uberのブログで「Why Uber Engineering Switched from Postgres to MySQL」というエントリが公開されました。

Why Uber Engineering Switched from Postgres to MySQL - Uber Engineering Blog
https://eng.uber.com/mysql-migration/

それに対して、PostgreSQLコミュニティ界隈でもいろいろなブログエントリが公開されました。

Robert Haas: Uber's move away from PostgreSQL
http://rhaas.blogspot.jp/2016/08/ubers-move-away-from-postgresql.html
On Uber’s Choice of Databases
http://use-the-index-luke.com/blog/2016-07-29/on-ubers-choice-of-databases
Thoughts on Uber’s List of Postgres Limitations |
http://blog.2ndquadrant.com/thoughts-on-ubers-list-of-postgres-limitations/
re: Why Uber Engineering Switched From Postgres to MySQL - DZone Database
https://dzone.com/articles/re-why-uber-engineering-switched-from-postgres-to

今回は、そのエントリの中でも、「Use The Index, Luke!」でおなじみのMarkus Winand氏のエントリ「On Uber’s Choice of Databases」が個人的に興味深かったので、同氏の翻訳許可をいただきまして、ここに対訳形式で公開します。

@MarkusWinand Great article. If you give me a permission, I would like to tranalate it for the Japanese PG community. Is it possible?
— Satoshi Nagayasu (@snaga) August 3, 2016

@MarkusWinand Thanks!
— Satoshi Nagayasu (@snaga) August 3, 2016

なお、当然ですが翻訳に際しての文責は翻訳者である永安にありますので、問題を見つけた場合にはコメント欄またはTwitter (@snaga)などで連絡いただけますと幸いです。

では、どうぞ。

■On Uber’s Choice of Databases （データベースにおけるUberの選択について）

On 7-29-2016
By Markus Winand

A few days ago Uber published the article “Why Uber Engineering Switched from Postgres to MySQL”. I didn’t read the article right away because my inner nerd told me to do some home improvements instead. While doing so my mailbox was filling up with questions like “Is PostgreSQL really that lousy?”. Knowing that PostgreSQL is not generally lousy, these messages made me wonder what the heck is written in this article. This post is an attempt to make sense out of Uber’s article.

数日前、Uberが「なぜUberエンジニアリングはPostgresからMySQLに切り替えたのか（Why Uber Engineering Switched from Postgres to MySQL）」という記事を公開しました。私は、この記事をすぐには読んでいませんでした。というのは、私の中のナード魂が、記事を読むのではなく自宅の改修を行うように私に促してきたからです。それをしている間、私のメールボックスは「PostgreSQLはそんなにひどいのか？（Is PostgreSQL really that lousy?）」というような質問でいっぱいになりました。一般的に言って、PostgreSQLはひどくはありません。それらのメッセージは、そもそも元記事でどれだけ大げさなことが書かれているのだろうか、という疑問を私に植えつけました。この記事は、Uberの記事にどのような理屈・道理を見出すか、というひとつ試みになります。

In my opinion Uber’s article basically says that they found MySQL to be a better fit for their environment as PostgreSQL. However, the article does a lousy job to transport this message. Instead of writing “PostgreSQL has some limitations for update-heavy use-cases” the article just says “Inefficient architecture for writes,” for example. In case you don’t have an update-heavy use-case, don’t worry about the problems described in Uber’s article.

私の見解では、Uberの記事は彼らの環境においてPostgreSQLよりMySQLの方がよくフィットしていることに気付いた、ということを基本的には述べています。が、そのメッセージを伝えるに当たって、この記事はひどいものとなっています。例えば、「PostgreSQLは更新処理の多いユースケースではいくつかの制約がある」と書くのではなく、この記事は単に「更新には非効率なアーキテクチャ」と書いています。もし、あなたが更新処理の多いユースケースでないのであれば、Uberの記事で説明されている問題を心配する必要はありません。

In this post I’ll explain why I think Uber’s article must not be taken as general advice about the choice of databases, why MySQL might still be a good fit for Uber, and why success might cause more problems than just scaling the data store.

本ポストでは、なぜUberの記事を一般的なデータベース選択のアドバイスとして受け取ってはならないのか、なぜMySQLがUberによって良い選択肢なのか、そして、成功することがなぜ単なるデータストアのスケーリング以上の問題を引き起こすのかを解説します。

■On UPDATE （UPDATEについて）

The first problem Uber’s article describes in great, yet incomplete detail is that PostgreSQL always needs to update all indexes on a table when updating rows in the table. MySQL with InnoDB, on the other hand, needs to update only those indexes that contain updated columns. The PostgreSQL approach causes more disk IOs for updates that change non-indexed columns (“Write Amplification” in the article). If this is such a big problem to Uber, these updates might be a big part of their overall workload.

Uberの記事が解説しているけれども厳密には不完全な最初の問題は、PostgreSQLはテーブル内の行を更新する時に常にすべてのインデックスを更新する必要がある、という部分です。一方で、InnoDBを使うMySQLは更新されたカラムを使っているインデックスだけを更新する必要がある。PostgreSQLのアプローチはインデックスのないカラムの更新時により多くのディスクI/Oを引き起こす（元記事では "Write Amplification" とされています）。もし、これがUberにとって大きな問題なのであれば、これらの更新が彼らのワークロードの多くを占めているはずです。

However, there is a little bit more speculation possible based upon something that is not written in Uber’s article: The article doesn’t mention PostgreSQL Heap-Only-Tuples (HOT). From the PostgreSQL source, HOT is useful for the special case “where a tuple is repeatedly updated in ways that do not change its indexed columns.” In that case, PostgreSQL is able to do the update without touching any index if the new row-version can be stored in the same page as the previous version. The latter condition can be tuned using the fillfactor setting. Assuming Uber’s Engineering is aware of this means that HOT is no solution to their problem because the updates they run at high frequency affect at least one indexed column.

しかし、Uberの記事に書かれていない事柄について考慮すると、少し思惑があるのかもしれません: 記事では PostgreSQL の Heap-Only-Tuples (HOT) について言及していないのです。PostgreSQLのソースコードには、HOTは特殊なケース、「インデックスが作成されているカラムを変更しない更新が繰り返される」時に有用である、とあります。この場合に、PostgreSQLは新しいバージョンの行が以前のバージョンの行と同じページに格納できる時には、インデックスに一切触らずに更新できるのです。後者の条件は fillfactor の設定を使うことで調整できます。Uber's Engineering の記事がこれに気付いていると仮定すると、HOTが彼らの問題のソリューションにならない理由は、つまりは彼らが高頻度で実行している更新処理が、インデックスの貼られたカラムを少なくとも一つは対象としているからなのでしょう。

This assumption is also backed by the following sentence in the article: “if we have a table with a dozen indexes defined on it, an update to a field that is only covered by a single index must be propagated into all 12 indexes to reflect the ctid for the new row”. It explicitly says “only covered by a single index” which is the edge case—just one index—otherwise PostgreSQL’s HOT would solve the problem.

この仮定は、記事中の次の文章によって裏付けられています: 「もし、1ダースのインデックスの貼られたテーブルがあったとすると、たった一つのインデックスが作成されているフィールドへの更新は、新しい行の ctid を反映させるために12個すべてのインデックスへと伝播されなければなりません」。ここでは明確に、「たった一つのインデックスが作成されている」と書かれており、ひとつのインデックスというのは境界条件（edge case）になりますが、そうでなければ（※訳注：インデックスが無いカラムの場合には）PostgreSQLのHOTがこの問題を解決します。

[Side note: I’m genuinely curious whether the number of indexes they have could be reduced—index redesign in my challenge. However, it is perfectly possible that those indexes are used sparingly, yet important when they are used.]

[備考: 私は心底、彼らの作成しているインデックスの数をどれだけ減らせるかに興味があります、インデックス再設計の挑戦として。しかし、それらのインデックスがあまり使われていないという可能性は十分にあるものの、それでもそれらが使われた時には重要ではあります。]

It seems that they are running many updates that change at least one indexed column, but still relatively few indexed columns compared to the “dozen” indexes the table has. If this is a predominate use-case, the article’s argument to use MySQL over PostgreSQL makes sense.

彼らは、多くの更新処理を、インデックスの貼られた少なくとも一つ以上のカラムを更新するものを実行しているようですが、それでも「1ダースの」インデックスと比べると、相対的に少ないです。これがユースケースの大部分なのであれば、記事の主張であるPostgreSQLの代わりにMySQLを使うという主張は納得がいくものです。

■On SELECT （SELECTについて）

There is one more statement about their use-case that caught my attention: the article explains that MySQL/InnoDB uses clustered indexes and also admits that “This design means that InnoDB is at a slight disadvantage to Postgres when doing a secondary key lookup, since two indexes must be searched with InnoDB compared to just one for Postgres.” I’ve previously written about this problem (“the clustered index penalty”) in context of SQL Server.

彼らのユースケースについて、私が注目した文章がもう一つあります: 記事では、MySQL/InnoDBはクラスター化インデックスを使っており、「この設計は、InnoDBがセカンダリインデックスを参照する時に、PostgreSQLに対してわずかな不利益があることを意味している。なぜならば、Postgresがただ一つのインデックスを使うのに対して、InnoDBでは2つのインデックスを検索しなければならないからだ」ということを認めています。私は、SQL Serverにおけるこの問題（クラスタ化インデックスのペナルティ）について以前書いたことがあります。

What caught my attention is that they describe the clustered index penalty as a “slight disadvantage”. In my opinion, it is a pretty big disadvantage if you run many queries that use secondary indexes. If it is only a slight disadvantage to them, it might suggest that those indexes are used rather seldom. That would mean, they are mostly searching by primary key (then there is no clustered index penalty to pay). Note that I wrote “searching” rather than “selecting”. The reason is that the clustered index penalty affects any statement that has a where clause—not just select. That also implies that the high frequency updates are mostly based on the primary key.

私の注意を引いたのは、彼らがクラスター化インデックスのペナルティを「わずかな不利益」としていたことです。私の見解では、もしあなたがセカンダリインデックスを使う多くのクエリを実行しているのであれば、これは非常に大きな不利益なのです。もし、これが彼らにとってわずかな不利益なのであれば、それらのインデックスがめったに使われていないことを示唆しています。つまり、ほとんどの場合には主キーによる検索（searching）である（よってクラスター化インデックスのペナルティは発生しない）ことを意味しています。私が選択（selecting）ではなく検索（searching）と書いたことに注意してください。その理由は、クラスター化インデックスのペナルティは、SELECTのみならず、すべてのWHERE句を持つクエリに影響するからです。またこのことにより、高頻度の更新処理の大部分は主キーを使っていると想定できます。

Finally there is another omission that tells me something about their queries: they don’t mention PostgreSQL’s limited ability to do index-only scans. Especially in an update-heavy database, the PostgreSQL implementation of index-only scans is pretty much useless. I’d even say this is the single issue that affects most of my clients. I’ve already blogged about this in 2011. In 2012, PostgreSQL 9.2 got limited support of index-only scans (works only for mostly static data). In 2014 I even raised one aspect of my concern at PgCon. However, Uber doesn’t complain about that. Select speed is not their problem. I guess query speed is generally solved by running the selects on the replicas (see below) and possibly limited by mostly doing primary key side.

最後に、もう一つの書かれていない点、彼らのクエリについて私に何かを教えてくれている部分があります: 彼らはPostgreSQLのIndex-Onlyスキャンの実行における制約については触れていません。特に更新の多いデータベースにおいては、PostgreSQLのIndex-Onlyスキャンはまったくと言っていいほど役に立ちません。これは、私の顧客の多くに影響を与える唯一の問題です。このことについて、2011年にはブログを書きました。2012年には、PostgreSQL 9.2がIndex-Onlyスキャンの限定されたサポート（大部分が静的なデータに対してのみ機能する）を実現しました。2014年には、私の懸念のひとつの側面について PgCon で問題提起をしました。しかし、Uberはそれについて問題視していません。SELECTの速さは彼らにとって問題ではないのです。想像するに、クエリの速さは一般的に、レプリカでSELECTすることによって解決され、かつ、主キーを使って操作するということによって（※訳注：実行時間は）限定されるのです。

By now, their use-case seems to be a better fit for a key/value store. And guess what: InnoDB is a pretty solid and popular key/value store. There are even packages that bundle InnoDB with some (very limited) SQL front-ends: MySQL and MariaDB are the most popular ones, I think. Excuse the sarcasm. But seriously: if you basically need a key/value store and occasionally want to run a simple SQL query, MySQL (or MariaDB) is a reasonable choice. I guess it is at least a better choice than any random NoSQL key/value store that just started offering an even more limited SQL-ish query language. Uber, on the other hand just builds their own thing (“Schemaless”) on top of InnoDB and MySQL.

この時点で、彼らのユースケースは Key/Valueストアの方がよりフィットするように見えます。そして、想像してください: InnoDBは非常に堅牢で人気のあるKey/Valueストアなのです。InnoDBに（非常に限定された）SQLフロントエンドをバンドルしたパッケージがあります: 私が思うに、MySQLとMariaDBは非常に人気のあるものです。皮肉を許してください。でもマジメに: もしあなたが求めているものがKey/Valueストアであり、シンプルなクエリを時々実行するものであれば、MySQL（またはMariaDB）は合理的な選択肢です。少なくとも、最近になって限定されたSQLっぽいクエリ言語を提供し始めたばかりのどこかのNoSQL Key/Valueストアよりは良い選択肢だと思います。Uberは、逆に彼ら自身のもの（Schemaless）をInnoDBとMySQLの上に構築しました。

■On Index Rebalancing （インデックスの再バランスについて）

One last note about how the article describes indexing: it uses the word “rebalancing” in context of B-tree indexes. It even links to a Wikipedia article on “Rebalancing after deletion.” Unfortunately, the Wikipedia article doesn’t generally apply to database indexes because the algorithm described on Wikipedia maintains the requirement that each node has to be at least half-full. To improve concurrency, PostgreSQL uses the Lehman, Yao variation of B-trees, which lifts this requirement and thus allows sparse indexes. As a side note, PostgreSQL still removes empty pages from the index (see slide 15 of “Indexing Internals”). However, this is really just a side issue.

その記事が、インデックスについてどのように説明しているかについての最後の一点です: 記事中でB-Treeインデックスの文脈で「再バランス（rebalancing）」という言葉を使っています。また、Wikipediaの「削除後の再バランス」の記事へのリンクも貼っています。残念なことに、Wikipediaの記事の内容はデータベースのインデックスに対して適用させることはできません。なぜなら、Wikipediaで説明されているアルゴリズムでは、各ノードが少なくとも半分埋まっている状態であることを要求しているからです。PostgreSQLでは、並行性を向上させるためにこの前提を除去して疎（sparse）なインデックスを可能にするLhemanとYaoのB-treeの派生版を使っています。追記しておくと、PostgreSQLはインデックス内で空になったページを削除しますが（"Indexing Internals"のスライド15枚目を見てください）、これは枝葉の問題です。

What really worries me is this sentence: “An essential aspect of B-trees are that they must be periodically rebalanced, …” Here I’d like to clarify that this is not a periodic process one that runs every day. The index balance is maintained with every single index change (even worse, hmm?). But the article continues “…and these rebalancing operations can completely change the structure of the tree as sub-trees are moved to new on-disk locations.” If you now think that the “rebalancing” involves a lot of data moving, you misunderstood it.

私が本当に心配しているのは次の文章です: 「B-treeの本質的な側面は、それらが定期的に再バランスを必要とすることです」。ここで明確にしておきたいのは、これは毎日実行されるような定期的なプロセスではない、ということです。インデックスのバランスは、いかなる小さな変更であれ、インデックスが変更される際に常にメンテナンスされるのです（もっと悪いですか？　ふーむ）。しかし、この記事は続けます。「これらの再バランスの処理は、ツリーの一部（sub-trees）を新しいディスク上の位置に移動させることによって、ツリーの構造を完全に変えてしまうことになります」。ここで、もしあなたが「再バランス」が大量のデータ移動を引き起こしてしまうと考えているならば、それは間違いです。

The important operation in a B-tree is the node split. As you might guess, a node split takes place when a node cannot host a new entry that belongs into this node. To give you a ballpark figure, this might happen once for about 100 inserts. The node split allocates a new node, moves half of the entries to the new node and connects the new node to the previous, next and parent nodes. This is where Lehman, Yao save a lot of locking. In some cases, the new node cannot be added to the parent node straight away because the parent node doesn’t have enough space for the new child entry. In this case, the parent node is split and everything repeats.

B-treeにおいて重要な操作はノードの分割です。あなたが想像した通り、ノードの分割は、そのノードに保持すべき新しいエントリが入り切らなくなった時に発生します。ざっくり理解するために、100回INSERTする度に発生すると仮定しましょう。ノード分割は、新しいノードを割り当て、インデックスエントリの半分を新しいノードに移動させ、新しいノードを以前のノード、隣のノード、および親ノードと連結します。これこそが、LehmanとYaoが多くのロックを削減した部分です。場合によっては、親ノードがいっぱいで新しいノードをすぐに親ノードに追加できない場合があります。その場合、親ノードが分割され、同じようにすべてが繰り返されることになります。

In the worst case, the splitting bubbles up to the root node, which will then be split as well and a new root node will be put above it. Only in this case, a B-tree ever becomes deeper. Note that a root node split effectively shifts the whole tree down and therefore keeps the balance. However, this doesn’t involve a lot of data moving. In the worst case, it might touch three nodes on each level and the new root node. To be explicit: most real world indexes have no more than 5 levels. To be even more explicit: the worst case—root node split—might happen about five times for a billion inserts. On the other cases it will not need to go the whole tree up. After all, index maintenance is not “periodic”, not even very frequent, and is never completely changing the structure of the tree. At least not physically on disk.

最悪なケースでは、ノード分割はルートノードまで伝播していき、同じようにルートノードが分割され、新しいルートノードがその上に配置されます。この場合のみ、B-treeはその階層が深くなるのです。ルートノードの分割は実際、ツリーを下方にシフトさせることでそのバランスを保ちます。しかし、この処理は多くのデータ移動を伴うものではありません。最悪の場合には、各階層で3ノード、および新しいルートノードにアクセスします。明確にしておきたい点: 実際の世の中のほとんどのインデックスは、5階層以上にはならないということです。さらに明確にしておきたい点: 最悪なケース ―ルートノードの分割― は、10億回のINSERTに対して5回くらい起こる、ということです。その他の場合には、ツリー全体を上がっていく必要はありません。このように、インデックスのメンテナンスというのは「定期的」なのではなく、非常に頻繁に発生しているものであり、ツリー全体の構造を完全に変えてしまうようなものでもありません。少なくとも、ディスク上の物理配置については。

■On Physical Replication (物理ログを使ったレプリケーションについて)

That brings me to the next major concern the article raises about PostgreSQL: physical replication. The reason the article even touches the index “rebalancing” topic is that Uber once hit a PostgreSQL replication bug that caused data corruption on the downstream servers (the bug “only affected certain releases of Postgres 9.2 and has been fixed for a long time now”).

この記事が提起したPostgreSQLへの次の大きな懸念: 物理ログを使ったレプリケーションです。元の記事がインデックスの「再バランス」の件に触れたのは、UberがPostgreSQLのレプリケーションで、下流のレプリカにおけるデータ破壊を引き起こすバグを踏んだからです。（このバグは「Postgres 9.2の特定のバージョンだけに発生し、かなり以前に修正されているものです」）

Because PostgreSQL 9.2 only offers physical replication in core, a replication bug “can cause large parts of the tree to become completely invalid.” To elaborate: if a node split is replicated incorrectly so that it doesn’t point to the right child nodes anymore, this sub-tree is invalid. This is absolutely true—like any other “if there is a bug, bad things happen” statement. You don’t need to change a lot of data to break a tree structure: a single bad pointer is enough.

PostgreSQL 9.2では、コア（本体）では物理ログを使ったレプリケーションだけを提供していますので、レプリケーションのバグは「インデックスツリーの大部分が完全に壊れているという状況を引き起こしうる」ものです。詳細に言うと、ノード分割が間違ってレプリケーションされると、二度と正しい子ノードを指し示さなくなってしまい、ツリーの一部が壊れた状態になります。これは、その他の「もしバグがあったなら、悪いことが起こるでしょう」という話と同じで真実のように聞こえるものです。ツリー構造を壊すには、多くのデータを書き換える必要はあなく、ただひとつの間違ったポインタだけで十分なのです。

The Uber article mentions other issues with physical replication: huge replication traffic—partly due to the write amplification caused by updates—and the downtime required to update to new PostgreSQL versions. While the first one makes sense to me, I really cannot comment on the second one (but there were some statements on the PostgreSQL-hackers mailing list).

Uberの元記事は、物理ログベースのレプリケーションのその他の問題を指摘しています: 大量のレプリケーション通信―UPDATEによる書き込みの増幅（write amplification）によるものを含む―、および新しいPostgreSQLバージョンへのアップデートの際にダウンタイムを必要としていること、などです。前者については納得がいくものですが、後者については私にはコメントできません。（が、PostgreSQL-hackersメーリングリストでいくつか言及がありました）

Finally, the article also claims that “Postgres does not have true replica MVCC support.” Luckily the article links to the PostgreSQL documentation where this problem (and remediations) are explained. The problem is basically that the master doesn’t know what the replicas are doing and might thus delete data that is still required on a replica to complete a query.

最後に、元記事は「PostgreSQLはレプリカで真のMVCCをサポートしていない」と苦情を述べています。ラッキーなことに、元記事はその問題を解説した（そして改善した）PostgreSQLのドキュメントにリンクを張っています。この問題は、基本的にはマスターというのはレプリカが何をやっているか知る由もない、つまり、レプリカがクエリを完了するために必要としているデータを、（マスタが）削除するようなことがあり得る、ということです。

According to the PostgreSQL documentation, there are two ways to cope with this issue: (1) delaying the application of the replication stream for a configurable timeout so the read transaction gets a chance to complete. If a query doesn’t finish in time, kill the query and continue applying the replication stream. (2) configure the replicas to send feedback to the master about the queries they are running so that the master does not vacuum row versions still needed by any slave. Uber’s article rules the first option out and doesn’t mention the second one at all. Instead the article blames the Uber developers.

PostgreSQLのドキュメントによると、この問題に対処するためには2つの方法があります: (1) 設定したタイムアウトに達するまで、レプリケーションストリーム（ログ転送）を生成しているアプリケーションを遅延させることで、（※訳注：レプリカで）実行されている読み取りトランザクションが完了できるようにする。（※訳注：レプリカ上の読み取り）クエリが指定した時間内に完了しなければ、そのクエリをキャンセルしてレプリケーションストリームの適用を継続する。 (2) レプリカが実行しているクエリについて、マスター側にフィードバックを送るように設定する。それによって、どこかのスレーブで必要としている行のバージョンに対してマスター側でVACUUMしないようにする。Uberの元記事は1つ目の選択肢については規定していますが、2つ目の選択肢についてはまったく言及していません。Uberの開発者のせいにする代わりに。

■On Developers （開発者について）

To quote it in all its glory: “For instance, say a developer has some code that has to email a receipt to a user. Depending on how it’s written, the code may implicitly have a database transaction that’s held open until after the email finishes sending. While it’s always bad form to let your code hold open database transactions while performing unrelated blocking I/O, the reality is that most engineers are not database experts and may not always understand this problem, especially when using an ORM that obscures low-level details like open transactions.”

これを引用できることを嬉しく思います: 「例えば、開発者が領収書をユーザにメールするコードを書いたとします。どのように書かれたのか、その実装にもよりますが、そのコードでは暗黙的に、メールの送信を完了するまでデータベーストランザクションがオープンされたままになるかもしれません。データベースに関連性のないブロッキングI/Oが実行される間、データベーストランザクションをオープンしたままにするというのは、どんな場合でも悪い状況となるわけけですが、現実的にはほとんどのエンジニアはデータベースのエキスパートではなく、特にオープントランザクションのような低いレベルの問題を引き起こすORMを使うような場合には、これらの問題を常には認識していないでしょう。」

Unfortunately, I understand and even agree with this argument. Instead of “most engineers are not database experts” I’d even say that most developers have very little understanding of databases because every developer that touches SQL needs know about transactions—not just database experts.

残念なことに、私は認識しており、この主張に賛同しています。「ほとんどのエンジニアはデータベースのエキスパートではない」と言う代わりに、データベースエキスパートだけではなくSQLに触るすべての開発者がトランザクションについて知っていなければならないにも関わらず、ほとんどの開発者はデータベースについてわずかしか理解していない、と言うことができます。

Giving SQL training to developers is my main business. I do it at companies of all sizes. If there is one thing I can say for sure is that the knowledge about SQL is ridiculously low. In context of the “open transaction” problem just mentioned I can conform that hardly any developer even knows that read only transactions are a real thing. Most developers just know that transactions can be used to back out writes. I’ve encountered this misunderstanding often enough that I’ve prepared slides to explain it and I just uploaded these slides for the curious reader.

SQLのトレーニングを開発者に提供することは私のメインのビジネスです。あらゆる規模の企業においてこれを行っています。私が言えるひとつ確実なことは、SQLについての知識が尋常でなく低いということです。たった今言った「オープントランザクション」の文脈においては、開発者たちは、参照のみのトランザクションが実際重要なものである、と多少は知っていると思います。ほとんどの開発者はトランザクションは書いたものを戻すために使うことができる、ということを知っているくらいでしょう。私は、これを説明するスライドを準備している際、度々この誤解に遭遇しますし、その度にこの問題に興味のある読者に向けてスライドをアップロードしているのです。

■On Success （成功について）

This leads me to the last problem I’d like to write about: the more people a company hires, the closer their qualification will be to the average. To exaggerate, if you hire the whole planet, you’ll have the exact average. Hiring more people really just increases the sample size.

このことは、私が書きたい最後の問題に私を導きます: 企業がより多くの人を雇うようになると、彼ら彼女らの能力は平均値に近づきます。大げさに言うと、もし地球上のすべての人を雇えば、完全に平均値になります。より多くの人を雇うということは、実際にサンプルサイズを大きくする、ということなのです。

The two ways to beat the odds are: (1) Only hire the best. The difficult part with this approach is to wait if no above-average candidates are available; (2) Hire the average and train them on the job. This needs a pretty long warm-up period for the new staff and might also bind existing staff for the training. The problem with both approaches is that they take time. If you don’t have time—because your business is rapidly growing—you have to take the average, which doesn’t know a lot about databases (empirical data from 2014). In other words: for a rapidly growing company, technology is easier to change than people.

この可能性を避ける2つの方法は: (1) ベストな人材のみを雇うこと。このアプローチの難しいところは、平均値以上の候補者が見つからない時に待つ必要があることです。 (2) 平均値の人を雇って仕事をしながらトレーニングすること。この方法は新しいスタッフに対して本当に長いウォームアップ期間を必要としますし、既存のスタッフについてもトレーニングに拘束することになるでしょう。両者に共通する問題は、時間がかかる、ということです。もし、あなたに時間がない ―ビジネスが急成長しているなどの理由で― のであれば、データベースについてさほど分かっていない平均値の人を雇うしかありません（2014年に実証されています）。言い換えれば: 急激に成長している企業にとっては、人材よりもテクノロジーの方が取り換えは容易なのです。

The success factor also affects the technology stack as requirements change over time. At an early stage, start-ups need out-of-the-box technology that is immediately available and flexible enough to be used for their business. SQL is a good choice here because it is actually flexible (you can query your data in any way) and it is easy to find people knowing SQL at least a little bit. Great, let’s get started! And for many—probably most—companies, the story ends here. Even if they become moderately successful and their business grows, they might still stay well within the limits of SQL databases forever. Not so for Uber.

また成功要因は、時間の経過に伴って要求が変化するため、テクノロジースタックに影響を与えます。アーリーステージにおいては、スタートアップはすぐに利用可能なテクノロジーであり、彼らのビジネスにおいて十分に柔軟であるものを必要とします。SQLは、本当に柔軟であるからこそ（どんなやり方であれ、データに対して問い合わせすることはできます）、この局面で良い選択肢であり、SQLを多少なりとも知っている人を見つけることはたやすいことです。素晴らしい、さぁ始めましょう！そして、ほとんどの会社にとって、話はここで終わるのです。仮に緩やかな成功と、ビジネスの成長が実現できたとしても、SQLデータベースの制約の中に健やかに留まっていることになるでしょう。Uberはそうではありませんでしたが。

A few lucky start-ups eventually outgrow SQL. By the time that happens, they have access to way more (virtually unlimited?) resources and then…something wonderful happens: They realize that they can solve many problems if they replace their general purpose database by a system they develop just for their very own use-case. This is the moment a new NoSQL database is born. At Uber, they call it Schemaless.

まれにラッキーなスタートアップは最終的にSQLの限界を超えます。それが起こる時、彼らはさらなる（仮想的には無限の？）リソースを利用することができ、そして。。。何か素敵なことが起こります: 彼らは、その一般的な用途のデータベースを彼ら独自のユースケースだけのために開発したシステムでリプレースすることで、多くの問題を解決できることを認識するのです。これこそが、新しいNoSQLデータベースが生まれる瞬間です。Uberでは、それはSchemalessと呼ばれています。

■On Uber’s Choice of Databases （データベースにおけるUberの選択について）

By now, I believe Uber did not replace PostgreSQL by MySQL as their article suggests. It seems that they actually replaced PostgreSQL by their tailor-made solution, which happens to be backed by MySQL/InnoDB (at the moment).

現時点では、私はUberは彼らの記事が言っているようにPostgreSQLをMySQLでリプレースしたとは思っていません。彼らは実際には、（現時点では）MySQL/InnoDBで支えられた彼ら独自のソリューションでPostgreSQLを置き換えたように見えます。

It seems that the article just explains why MySQL/InnoDB is a better backend for Schemaless than PostgreSQL. For those of you using Schemaless, take their advice! Unfortunately, the article doesn’t make this very clear because it doesn’t mention how their requirements changed with the introduction of Schemaless compared to 2013, when they migrated from MySQL to PostgreSQL.

元記事は、MySQL/InnoDBがなぜ彼らのSchemalessのバックエンドとして、PostgreSQLよりも良かったのか、ということを説明しているように見えます。Schemalessを使っている人たちは、そのアドバイスを聞くべきでしょう！残念ながら、元記事はそのことについて明確にしていません。というのは、Schemalessを紹介するに当たって、彼らの要件が2013年、彼らがMySQLからPostgreSQLに移行した時と比べてどのように変化してきたのかについて言及していないからです。

Sadly, the only thing that sticks in the reader’s mind is that PostgreSQL is lousy.

悲しいことに、読者の頭の中に残るのは、PostgreSQLがひどい、ということだけです。

If you like my way of explaining things, you’ll love my book.

もし、私が説明する諸々を気に入っていただけるのであれば、おそらく私の本（※訳注：日本語版）も気に入ってもらえるのではないかと思います。

TF-IDFでデータベース内の類似テキストを検索する Part 4 （MADlib svec編）

2016-07-19T16:45:00.001+09:00

TF-IDF 感動巨編3部作は前回のエントリで完結したわけですが、今回はその番外編、スピンオフとして「MADlib svec編」をお送りします。

MADlib には、sparse（疎）な配列、つまり多くの要素がゼロであるような配列を扱うデータ型として svec というデータ型があります。

MADlib: Sparse Vectors
https://madlib.incubator.apache.org/docs/latest/group__grp__svec.html

本エントリでは、TF-IDF のベクトルに MADlib の svec を使って、通常の float8[] などとどのように違うのかを見てみます。

■「MADlib」とは何か

MADlib については、ガッツリと割愛します。以前のエントリで詳しくご紹介しましたので、そちらを参照してください。

データ分析用ライブラリ MADlib を使って PostgreSQL で機械学習する
http://pgsqldeepdive.blogspot.jp/2016/04/madlib-postgresql.html

■「svec」とは何か

svec は、ゼロの多い sparse な配列を圧縮して保持するデータ型です。データ分析をしていると、頻繁に遭遇するデータの構造になります。

例えば、float8 の配列で以下のようにゼロが並ぶデータがあったとします。

'{0, 33,...40,000個のゼロ..., 12, 22 }'::float8[]

すると、この配列は 320kB 以上のディスク容量またはメモリを消費することになります。ほとんど意味のないゼロを保持するだけのために、これだけのリソースを食ってしまいます。

svec は、この配列を以下のようにランレングス圧縮（RLE圧縮）することでデータサイズを縮小します。

'{1,1,40000,1,1}:{0,33,0,12,22}'::madlib.svec

このように圧縮することによって、5つの整数型と5つの浮動小数点型に集約され、データサイズが劇的に小さくなります。

このようなデータ型を用意することで、ディスク容量とメモリの消費を抑え、大量のデータの処理を可能にします。（もちろん、演算処理時には圧縮されたデータを展開しながら行いますので、そのCPUコストは発生します）

さらなる詳細はマニュアルを参照してください。

MADlib: Sparse Vectors
https://madlib.incubator.apache.org/docs/latest/group__grp__svec.html

■float8[] を svec に変換する

まず、TF-IDF 感動巨編3部作が完結した状態のテーブルから始めます。

TF-IDFでデータベース内の類似テキストを検索する Part 3 （性能改善編）
http://pgsqldeepdive.blogspot.jp/2016/07/tf-idf-part-3.html

この時、以下のようなテーブル定義になっているはずです。

snaga=> \d pgsql_doc
                                  Table "public.pgsql_doc"
  Column   |        Type        |                         Modifiers
-----------+--------------------+-----------------------------------------------------------
 docid     | integer            | not null default nextval('pgsql_doc_docid_seq'::regclass)
 filename  | text               | not null
 html      | text               | not null
 plain     | text               |
 tf        | jsonb              |
 tfidf     | jsonb              |
 tfidf_vec | double precision[] |
Indexes:
    "pgsql_doc_pkey" PRIMARY KEY, btree (docid)

snaga=>

この時、tfidf_vec のカラムは、以下のようにゼロの多い float8 の配列になっています。

snaga=> SELECT substring(tfidf_vec::text from 0 for 100) FROM pgsql_doc LIMIT 1;
                                              substring
-----------------------------------------------------------------------------------------------------
 {0,0,0,0,0,0,0,0.0328645679655572,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0
(1 row)

snaga=>

この float8[] を svec に変換するには、単に madlib.svec 型へキャストすれば完了です。

snaga=> SELECT substring(tfidf_vec::madlib.svec::text from 0 for 100) FROM pgsql_doc LIMIT 1;
                                              substring
-----------------------------------------------------------------------------------------------------
 {7,1,31,1,4,1,18,1,70,1,88,1,4,1,51,1,11,1,45,1,1,1,52,1,2,1,4,1,1,7,1,1,1,36,1,1,1,36,1,106,1,14,1
(1 row)

snaga=>

■float8[] と svec のテーブルを用意する

まず、比較のために、docid, filename カラムと、float8[] の tfidf_vec カラム、もしくは svec の tfidf_svec カラムだけを保持するテーブル pgsql_doc_vec と pgsql_doc_svec を作成します。

tfidf_svec カラムは madlib.svec 型になっていることを確認します。

snaga=> CREATE TABLE pgsql_doc_vec AS SELECT docid,filename,tfidf_vec FROM pgsql_doc;
SELECT 1304
snaga=> \d pgsql_doc_vec
        Table "public.pgsql_doc_vec"
  Column   |        Type        | Modifiers
-----------+--------------------+-----------
 docid     | integer            |
 filename  | text               |
 tfidf_vec | double precision[] |

snaga=> CREATE TABLE pgsql_doc_svec AS SELECT docid,filename,tfidf_vec::madlib.svec as tfidf_svec FROM pgsql_doc;
SELECT 1304
snaga=> \d pgsql_doc_svec
    Table "public.pgsql_doc_svec"
   Column   |    Type     | Modifiers
------------+-------------+-----------
 docid      | integer     |
 filename   | text        |
 tfidf_svec | madlib.svec |

snaga=>

■float8[] と svec のデータサイズを比較する

まず、2つのテーブルのデータサイズを比較してみます。

snaga=> \d+
                             List of relations
 Schema |        Name         |   Type   | Owner |    Size    | Description
--------+---------------------+----------+-------+------------+-------------
 public | pgsql_doc           | table    | snaga | 407 MB     |
 public | pgsql_doc_docid_seq | sequence | snaga | 8192 bytes |
 public | pgsql_doc_svec      | table    | snaga | 3872 kB    |
 public | pgsql_doc_vec       | table    | snaga | 6752 kB    |
(4 rows)

snaga=>

上記を見て分かる通り、MADlib の svec 型を使ったテーブルの方が 3MB ほど小さくなっています。

このようにデータサイズを小さくすることによって、ディスクサイズの節約、I/O読み込みの抑制、バッファキャッシュの消費抑制などが実現され、ひいてはパフォーマンスの向上につながります。

■float8[] と svec のパフォーマンス比較

それでは、上記で作ったテーブルとカラムを使って、前回用いた「wal.html と類似のドキュメントを検索する」クエリでパフォーマンスを比較してみます。

float8[] 型を使う場合のクエリは以下の通りです。

EXPLAIN ANALYZE SELECT
  filename,
  euclidean_distance(tfidf_vec, (SELECT tfidf_vec FROM pgsql_doc_vec WHERE filename = 'wal.html') )
FROM
  pgsql_doc_vec
ORDER BY
  2;

svec 型を使う場合のクエリは以下の通りです。

EXPLAIN ANALYZE SELECT
  filename,
  euclidean_distance(tfidf_svec::float8[], (SELECT tfidf_svec::float8[] FROM pgsql_doc_svec WHERE filename = 'wal.html') )
FROM
  pgsql_doc_svec
ORDER BY
  2;

上記のクエリを5回ずつ実行した結果、

float8[] 使用時：平均 4757.6 ミリ秒

4738.021, 4739.953, 4734.725, 4793.513, 4781.721

svec 使用時：平均 4379.5 ミリ秒

4395.491, 4315.103, 4408.664, 4342.631, 4435.416

となり、svec を使用した方が1割ほど速い、という結果になりました。

データが圧縮されたことによって、パフォーマンス改善が実現されているようです。

■まとめ

今回は、MADlib で提供されている svec 型を使ってみました。

今回のケースでは1割程度のパフォーマンス改善になりましたが、当然ながらデータ圧縮の程度によってパフォーマンス向上の度合いは変わってくるでしょうし、データ量によっても変わってくると思われます。

興味のある方は、ぜひトライしてみていただければと思います。

では、また。

PostgreSQL Deep Dive

Jupyter+Pandasを使ったPostgreSQLパフォーマンス分析

■PostgreSQLの「パフォーマンス分析」とは

■「Jupyter + Pandas」を使ってパフォーマンス分析

■データ収集

■PandasのDataframeに変換する

■特定のクエリの平均処理時間の推移を見る

■平均処理時間が10%以上悪化したクエリを抽出する

■まとめ

tablelog extension を使ってDB移行に必要なテーブルの更新差分のログを取得する

■DB移行やメジャーバージョンアップの時、、、

■更新差分だけを取得・適用して追い付きたい

■PostgreSQLで更新処理のログを取得するには

■tablelog pl/v8版

■tablelogのインストール

■tablelogの使い方

■まとめ

カラムナーDB拡張 cstore_fdw とその性能評価

■cstore_fdw とは

■cstore_fdw のセットアップ

■cstore_fdw の基本的な使い方

■DBT-3 を使った性能評価

■まとめ

機械学習ライブラリApache MADlibで決定木を使ってKaggleのTitanicを解く

■Kaggle Titanicとは

■訓練用データと予測用データをPostgreSQLにロードする

■訓練用データを使って予測モデルを作成する

■作成した予測モデルとテストデータを使って予測をする

■予測結果をKaggleに投稿して予測精度を確認する

■まとめ

Python版dblinkでデータベース連携をもっと「自由」に

■なぜ今さら「dblink」？

■dblink/pyの実装方針

■実装するdblink/pyのAPI

■dblink/pyの初期実装と動作確認

■dblink/pyのSQLiteへの拡張

■まとめ

この連休の読書にオススメの一冊「SQLパフォーマンス詳解」（割引コードあり）

■著者のMarkus Winand氏について

■「SQLパフォーマンス詳解」について

■「SQLパフォーマンス詳解」目次

■割引コードの使い方

■まとめ

PostgreSQLのデータをPandasのデータフレームとして読み書きする

■やりたいこと

■必要なもの

■PostgreSQLに接続する

■PostgreSQLのデータをPandasに読み込む

■PandasのデータをPostgreSQLに書き出す

■まとめ

Oracle対応アプリケーションのDockernize事始め

■なぜ今さら「Docker」か、という前口上

■HecatoncheirのDocker化

■Dockerイメージ化する

■Dockerイメージを使ってデータベースプロファイリングをする

■プロファイリングしたデータを閲覧する

■まとめ

Dockerを使ってデータ分析用にPostgreSQLを使ってみる

■全部入りのDockerイメージを作ってみた

■Dockerコンテナを起動してPostgreSQLに接続する

■各種Extensionを見てみる

■Dockerfile

■まとめ

[翻訳] たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか （How a single PostgreSQL config change improved slow query performance by 50x）

■How a single PostgreSQL config change improved slow query performance by 50x■たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか

【告知】9月9日（土）に関西DB勉強会で講演します

技術文書「PostgreSQL 10 Beta1 新機能検証結果」が公開されました

Azure Database for PostgreSQLにアクセスしてみた

■PostgreSQLのリソースを作成する

■PostgreSQLに接続する

■EXTENSIONを見てみる

■AzureのPostgreSQLリソースの設定項目

■まとめ

Hecatoncheir: The Data Stewardship Studio 0.8を公開しました

■本ツールを開発した背景

■本ツールでできること

■本ツールの仕組み

■動作環境・対応プラットフォーム

■本ツールの使い方

■名前（Hecatoncheir）の由来

[翻訳] たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか（How a single PostgreSQL config change improved slow query performance by 50x）

■How a single PostgreSQL config change improved slow query performance by 50x
■たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか

■オープンデータ「国土数値情報　観光資源データ」とは

■「svec」とは何か