虹裏img歴史資料館 - imgの文化を学ぶ

ここでは虹裏imgのかなり古い過去ログを閲覧することができます。

21/07/01(木)21:40:00 スクレ... のスレッド詳細

削除依頼やバグ報告は メールフォーム にお願いします。個人情報、名誉毀損、侵害等については積極的に削除しますので、 メールフォーム より該当URLをご連絡いただけると助かります。

21/07/01(木)21:40:00 No.819032197

スクレイピングするときに欲しいデータが数百万ページあった場合 仮に間隔を1秒としたらそれだけで数十日になるない? さらに画像データとかの保存にちょっと時間かかるやつとかだともっと時間かからない?

1 21/07/01(木)21:42:58 No.819033479

はい

2 21/07/01(木)22:05:30 No.819042717

>はい 左様

3 21/07/01(木)22:05:47 No.819042823

左様て

4 21/07/01(木)22:26:31 No.819050860

並列処理したら? 負荷が気になるなら保存だけ別スレッドにするだけで違うと思うけど

5 21/07/01(木)22:27:32 No.819051226

それポリシー違反だから

6 21/07/01(木)22:27:47 No.819051323

スクレイピングやらなきゃダメ?

7 21/07/01(木)22:28:33 No.819051609

ドメインが別なもの同士10も100も並列にリクエストしてええよ

8 21/07/01(木)22:29:17 No.819051897

即BAN

9 21/07/01(木)22:30:11 No.819052222

1マシン空間からパラで大量に走らせるならPython以外の選択肢を考えてもいいと思う でも俺が対抗側だったらブチギレると思う マシンを複数用意できるならPythonでもいくらか効率的で面白い処理系は無いこともないと思う でも俺が対抗側だったらブチギレると思う

10 21/07/01(木)22:32:06 No.819052932

最低限のお行儀を考えたらwgetかcurlが再起的に処理できる程度の起点を与えてあげるだけにすべき

11 21/07/01(木)22:32:13 No.819052975

数百万ページ分の画像データって酷いことにならない?

12 21/07/01(木)22:32:17 No.819053018

いろんなリージョンで複数仮想サーバーを建てて…とか思うけどたぶんやっちゃダメだろうな…

13 21/07/01(木)22:32:22 No.819053043

むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する…

14 21/07/01(木)22:33:00 No.819053305

高度に洗練されたスクレイピングとddosは区別がつかないかもしれない

15 21/07/01(木)22:33:13 No.819053390

そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう

16 21/07/01(木)22:34:22 No.819053892

>むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する… クラウドサーバで分散しようよ!

17 21/07/01(木)22:34:48 No.819054074

>クラウドサーバで分散しようよ! 転送量で料金えらことになるし…

18 21/07/01(木)22:35:35 No.819054441

>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう ダンプダウンロードできるじゃねーか!

19 21/07/01(木)22:36:51 No.819054939

>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう テキストに限っていえばDBのスナップショットが配布されてるから今時の回線なら1時間もかからないはず 画像とかのwikimedia込みならぞっとするな

↑Top