21/07/01(木)21:40:00 スクレ... のスレッド詳細
削除依頼やバグ報告は メールフォーム にお願いします。個人情報、名誉毀損、侵害等については積極的に削除しますので、 メールフォーム より該当URLをご連絡いただけると助かります。
21/07/01(木)21:40:00 No.819032197
スクレイピングするときに欲しいデータが数百万ページあった場合 仮に間隔を1秒としたらそれだけで数十日になるない? さらに画像データとかの保存にちょっと時間かかるやつとかだともっと時間かからない?
1 21/07/01(木)21:42:58 No.819033479
はい
2 21/07/01(木)22:05:30 No.819042717
>はい 左様
3 21/07/01(木)22:05:47 No.819042823
左様て
4 21/07/01(木)22:26:31 No.819050860
並列処理したら? 負荷が気になるなら保存だけ別スレッドにするだけで違うと思うけど
5 21/07/01(木)22:27:32 No.819051226
それポリシー違反だから
6 21/07/01(木)22:27:47 No.819051323
スクレイピングやらなきゃダメ?
7 21/07/01(木)22:28:33 No.819051609
ドメインが別なもの同士10も100も並列にリクエストしてええよ
8 21/07/01(木)22:29:17 No.819051897
即BAN
9 21/07/01(木)22:30:11 No.819052222
1マシン空間からパラで大量に走らせるならPython以外の選択肢を考えてもいいと思う でも俺が対抗側だったらブチギレると思う マシンを複数用意できるならPythonでもいくらか効率的で面白い処理系は無いこともないと思う でも俺が対抗側だったらブチギレると思う
10 21/07/01(木)22:32:06 No.819052932
最低限のお行儀を考えたらwgetかcurlが再起的に処理できる程度の起点を与えてあげるだけにすべき
11 21/07/01(木)22:32:13 No.819052975
数百万ページ分の画像データって酷いことにならない?
12 21/07/01(木)22:32:17 No.819053018
いろんなリージョンで複数仮想サーバーを建てて…とか思うけどたぶんやっちゃダメだろうな…
13 21/07/01(木)22:32:22 No.819053043
むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する…
14 21/07/01(木)22:33:00 No.819053305
高度に洗練されたスクレイピングとddosは区別がつかないかもしれない
15 21/07/01(木)22:33:13 No.819053390
そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう
16 21/07/01(木)22:34:22 No.819053892
>むぅ…ルーター再起動スクリプトで30Pに1回IPを変更する… クラウドサーバで分散しようよ!
17 21/07/01(木)22:34:48 No.819054074
>クラウドサーバで分散しようよ! 転送量で料金えらことになるし…
18 21/07/01(木)22:35:35 No.819054441
>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう ダンプダウンロードできるじゃねーか!
19 21/07/01(木)22:36:51 No.819054939
>そういえばwikipediaのページ全部保存しようとしたらどのくらいかかるんだろう テキストに限っていえばDBのスナップショットが配布されてるから今時の回線なら1時間もかからないはず 画像とかのwikimedia込みならぞっとするな