Macでココログのマイフォト(アルバム)から画像データを漏れなくダウンロードする方法

書いてなかったので書いておきます。意外と簡単です。(多分Linuxなどでも動くと思います。)
この方法でアルバムのデータ(6600枚×2)を全てダウンロードし、移行を行いました。

1.マイフォトの「atom.xml」から全HTMLを抽出
ココログのマイフォトの「atom.xml」には全HTMLのURLが(現在は)含まれているのでこれを使います。なければ、インデックスページかサイドバーのインデックスでもいいと思います。
太字の部分は、アルバムのURLです。
curl -o temp1 -O http://avalon1982.cocolog-nifty.com/photos/vq1050/atom.xml ; grep html temp1 > temp2
curl -o temp1 -O http://avalon1982.cocolog-nifty.com/photos/vq1050_2/atom.xml ; grep html temp1 >> temp2
   : (ダウンロードするアルバムを任意に)

sed 's/[><)(;=&\"]/ /g' temp2 | awk -v s=http: '{for(i=1;i<=NF;++i) if ($i~s)print "curl -o temp1 -O " $i "; egrep 'jpg|png|gif' temp1 >> temp2 ; sort temp2 | uniq > temp3 ; mv temp3 temp2" }' |  sort | uniq | egrep 'avalon1982.cocolog-nifty.com/photos' | egrep 'html' > sh1 ; rm temp2


2.抽出した全HTMLからそのHTMLに含まれる画像リンクを抽出
上記でシェル「sh1」ができますので、内容を確認して実行します。
実行すると全HTMLのダウンロードおよび画像リンクのある行を抽出します。
サムネイルのインデックスを各ページに持つHTMLの場合は、画像リンクの重複がアルバムにある写真の枚数の2乗にもなりますので1000枚もあるとものすごい量(100万行×本体とサムネイルでさらに2倍)になります。このため、「sh1」の中では、APPENDする際、重複の除去を行っています。
全ての実行が終わったら以下を実行します。
sed 's/[><)(;=&\"]/ /g' temp2 | awk -v s=http: '{for(i=1;i<=NF;++i) if ($i~s)print "curl --create-dirs -o " $i " -O " $i}' | egrep 'jpg|png|gif' |  sort | uniq  > sh2

181.png


3.画像データのダウンロード
上記処理でシェル「sh2」ができますの、これを実行すれば、ダウンロードが始まります。
URLをそのまま出力フォルダーにしているため、「http/」という変なディレクトリがトップにできますが、移動したり、リネームすれば問題ないのでそのまま使ってます。
182.png


ブログ全体から画像データを抽出する方法は、「Mac/ブログ移行の際、画像データを確実にダウンロードするには。 」にまとめてます。
| コメント(0)
twitterに送る tumblrに送る

コメントする




このページを送る。

twitterに送る tumblrに送る

読む。 (↓こちらに配信中)

À propos de l'auteur


SINCE 2007/05/23 (5272)

トイデジまとめ

私が購入したVQ1005/VQ1015/VQ5090/DIGITAL HARINEZUMIを中心にまとめました。

メルマガ

このブログのメルマガです。

メールアドレスを入力してください:

配信: FeedBurner




このブログ記事について

このページは、avalonがJune 22, 2009 12:30 AMに書いたブログ記事です。

ひとつ前のブログ記事は「朝日新聞に会長が・・・。」です。

次のブログ記事は「Hanson Roboticsのアンドロイド」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

March 2010

  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

全記事一覧(5272


Googleボットチェッカー
track feed
Yahoo!ボットチェッカー ブログランキング・にほんブログ村へ
MSNボットチェッカー copygator





blogram投票ボタン
あわせて読みたいブログパーツ
OpenID対応しています OpenIDについて