Postgresで大量のラージオブジェクトデータをコピーする

木曜日, 8月 12th, 2010

こんにちは、なかわけです。

いまpostgresのlargeobjectを大量にコピーする作業をしています。
元のデータベースに3000万行くらいあってそれをまるっとそっくりコピーのデータベースに流し込みます。

INSERT INTO pg_largeobject
       SELECT *
         FROM dblink('dbname=元データベース', SELECT * FROM pg_largeobject')
           AS t1 (loid oid, pageno integer, data bytea);

最初一回でコピーしようとしたらメモリエラーで失敗しました。そりゃそうですよねｗ

それで3000万行を10万行ずつに分割して書いたクエリのテキストファイルを読み込ませて
データを流し込むことにしました。たとえば、以下はその中のひとつのクエリ。

INSERT INTO pg_largeobject
       SELECT *
         FROM dblink(
                  'dbname=元データベース',
                  'SELECT * FROM pg_largeobject ORDER BY loid, pageno LIMIT 100000 OFFSET 200000')
           AS t1(loid oid,pageno integer,data bytea);

始めの方は10万行を挿入するのに1、2分程度で処理されていましたが、だんだん処理が遅くなり、
1000万行を挿入し終わったあたりでは10万行挿入するのに15分程度かかるようになってしまいました。

時間がかかってしょうがないです。どうしたものか。

ところが、とあるところからいい方法を教えてもらいました。

INSERT INTO pg_largeobject
           SELECT *
           FROM dblink(
                   'dbname=元データベース',
                   'SELECT * FROM pg_largeobject WHERE loid BETWEEN n AND m')
           AS t1(loid oid,pageno integer,data bytea);

ORDERしてLIMIT、OFFSETするのではなく、BETWEENを使うんですね！
確かにこっちの方が処理が少ない分早そうだし、実際めちゃ早かったです。
あーよかったよかった！

Tags: dblink, pg_largeobject, Postgres

This entry was posted on 木曜日, 8月 12th, 2010 at 2:13 PM and is filed under PostgreSQL. You can follow any responses to this entry through the RSS 2.0 feed. You can skip to the end and leave a response. Pinging is currently not allowed.

Postgresで大量のラージオブジェクトデータをコピーする

Leave a Reply

カテゴリー

アーカイブ

旧ブログ

Twitter

Postgresで大量のラージオブジェクトデータをコピーする

Leave a Reply

カテゴリー

タグ

アーカイブ

旧ブログ

Twitter