スクレ... のスレッド詳細 21/07/01(木)21:40:00のログ

21/07/01(木)21:40:00 スクレ... のスレッド詳細

削除依頼やバグ報告はメールフォームにお願いします。個人情報、名誉毀損、侵害等については積極的に削除しますので、メールフォームより該当URLをご連絡いただけると助かります。

21/07/01(木)21:40:00 No.819032197

スクレイピングするときに欲しいデータが数百万ページあった場合仮に間隔を１秒としたらそれだけで数十日になるない？さらに画像データとかの保存にちょっと時間かかるやつとかだともっと時間かからない？

1 21/07/01(木)21:42:58 No.819033479

はい

2 21/07/01(木)22:05:30 No.819042717

>はい左様

3 21/07/01(木)22:05:47 No.819042823

左様て

4 21/07/01(木)22:26:31 No.819050860

並列処理したら？負荷が気になるなら保存だけ別スレッドにするだけで違うと思うけど

5 21/07/01(木)22:27:32 No.819051226

それポリシー違反だから

6 21/07/01(木)22:27:47 No.819051323

スクレイピングやらなきゃダメ？

7 21/07/01(木)22:28:33 No.819051609

ドメインが別なもの同士10も100も並列にリクエストしてええよ

8 21/07/01(木)22:29:17 No.819051897

即BAN

9 21/07/01(木)22:30:11 No.819052222

1マシン空間からパラで大量に走らせるならPython以外の選択肢を考えてもいいと思うでも俺が対抗側だったらブチギレると思うマシンを複数用意できるならPythonでもいくらか効率的で面白い処理系は無いこともないと思うでも俺が対抗側だったらブチギレると思う

10 21/07/01(木)22:32:06 No.819052932

最低限のお行儀を考えたらwgetかcurlが再起的に処理できる程度の起点を与えてあげるだけにすべき

11 21/07/01(木)22:32:13 No.819052975

数百万ページ分の画像データって酷いことにならない？

12 21/07/01(木)22:32:17 No.819053018

いろんなリージョンで複数仮想サーバーを建てて…とか思うけどたぶんやっちゃダメだろうな…

13 21/07/01(木)22:32:22 No.819053043

むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する…

14 21/07/01(木)22:33:00 No.819053305

高度に洗練されたスクレイピングとddosは区別がつかないかもしれない

15 21/07/01(木)22:33:13 No.819053390

そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう

16 21/07/01(木)22:34:22 No.819053892

>むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する… クラウドサーバで分散しようよ！

17 21/07/01(木)22:34:48 No.819054074

>クラウドサーバで分散しようよ！転送量で料金えらことになるし…

18 21/07/01(木)22:35:35 No.819054441

>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろうダンプダウンロードできるじゃねーか！

19 21/07/01(木)22:36:51 No.819054939

>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろうテキストに限っていえばDBのスナップショットが配布されてるから今時の回線なら1時間もかからないはず画像とかのwikimedia込みならぞっとするな