ここでは虹裏imgのかなり古い過去ログを閲覧することができます。
21/07/30(金)21:39:13 No.829297174
機械学習のために必要なデータをスクレイピングしようとしたんだけど これ間隔に1秒必要とすると1万ぺージに分割されたデータ収集するには1万秒必要になるってことだよな? もっとなんかこう高速でデータ収集する方法ないのか
1 21/07/30(金)21:39:41 No.829297416
おっぱいそん
2 21/07/30(金)21:41:01 No.829298077
1秒で2回アクセスすればいいんじゃない?
3 21/07/30(金)21:41:33 No.829298315
なんかまったく同じスレ文前も見たことある気がする 収集だけなら並列でやりゃいいんじゃ
4 21/07/30(金)21:41:52 No.829298476
>1秒で2回アクセスすればいいんじゃない? 間隔は法律上1秒にしとけみたいな記事みたけど1秒以下にしていいのか?
5 21/07/30(金)21:43:22 No.829299159
最悪業務妨害になるから気をつけて!
6 21/07/30(金)21:43:32 No.829299222
1万秒なら1晩置いとけばすぐじゃん
7 21/07/30(金)21:43:39 No.829299267
聞いてる暇があったらバックグラウンドで走らせときゃいいんじゃねぇかな…
8 21/07/30(金)21:44:20 No.829299558
ぶっちゃけ相手のシステムの強さにもよるしわからん 図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね?
9 21/07/30(金)21:44:26 No.829299599
librahack事件は1アクセス/秒でアウトだったし…
10 21/07/30(金)21:45:45 No.829300212
1回やりきれば終わりなら1万秒待てばいいんじゃない
11 21/07/30(金)21:46:13 No.829300446
同じIPから続けざまにアクセスしてると そのうちブロックされたり遅延かけてきたりするので 安心して欲しい
12 21/07/30(金)21:46:39 No.829300625
>ぶっちゃけ相手のシステムの強さにもよるしわからん >図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね? 起訴猶予だからこの辺で勘弁してやらあ!くらいのニュアンス
13 21/07/30(金)21:47:12 No.829300885
SIM複数契約してラズパイとかで並行で走らせれば?
14 21/07/30(金)21:47:24 No.829300972
関係ないけどスレ「」はどんなデータを集めようとしているの?
15 21/07/30(金)21:47:36 No.829301057
じゃあbotネットでいろんなIPからアクセスさせれば…
16 21/07/30(金)21:51:35 No.829302964
日本の著作権法すげえよね 機械学習屋に優しい
17 21/07/30(金)21:52:20 No.829303347
>関係ないけどスレ「」はどんなデータを集めようとしているの? DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい
18 21/07/30(金)21:55:33 No.829304904
>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい 怒られるやつでは?
19 21/07/30(金)21:56:18 No.829305276
1万秒って166分ぐらいだから3時間もあれば終わるし 一度スクレイピングしちゃえば十分なのであれば大した問題じゃなくない?
20 21/07/30(金)21:57:35 No.829305886
レビュー集めたいとなるとある程度の頻度で更新するデータだなあ
21 21/07/30(金)21:59:32 No.829306784
DMMならAPI公開してそう
22 21/07/30(金)21:59:44 No.829306866
やっぱエロは強いな
23 21/07/30(金)22:02:17 No.829307951
DMMはたとえば巨乳AVだけに限っても5万作品ぐらいあるからな…
24 21/07/30(金)22:04:48 No.829309054
一週間くらい動かし続けてればなんとかなるだろ
25 21/07/30(金)22:04:54 No.829309102
>>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい >怒られるやつでは? そうなの!?
26 21/07/30(金)22:06:21 No.829309684
さっきのスレで味を占めたの?!
27 21/07/30(金)22:08:15 No.829310567
>さっきのスレで味を占めたの?! さっきのスレってなんだよ!?
28 21/07/30(金)22:09:22 No.829311136
>さっきのスレってなんだよ!? とらのアレでしょ君?
29 21/07/30(金)22:14:13 No.829313246
スクレイピングで情報収集してんのに文句つけんな 相手のお目こぼしでデータ使えてるだけという立場をわきまえろ
30 21/07/30(金)22:14:19 No.829313288
>>さっきのスレってなんだよ!? >とらのアレでしょ君? そのとらのスレってやつで 別の「」とレスポンチバトルして負けたのが悔しくて 憂さを晴らすためにこのスレまで荒そうとしてるの? 恥ずかしくない?
31 21/07/30(金)22:16:17 No.829314190
レビュー情報あつめて感情分析とかするの?
32 21/07/30(金)22:19:33 No.829315744
>レビュー情報あつめて感情分析とかするの? 感情分析は現状だと精度よくないって聞くし とりあえずはレビュー文面と製品紹介文あたりに頻出する単語でクラスタリングするところから始めようかな ってぼやっと考えてるけど正直具体的な予定は未定
33 21/07/30(金)22:20:09 No.829316011
>そのとらのスレってやつで >別の「」とレスポンチバトルして負けたのが悔しくて >憂さを晴らすためにこのスレまで荒そうとしてるの? >恥ずかしくない? ボロ負けしたのに新しいスレなら切り替わって攻守逆転するつもりでいるのか… それでいいけどskeb嫌いも大概にしなよ…
34 21/07/30(金)22:22:27 No.829317096
なんだかよく知らんが別のスレのもめ事を持ち込むのはどうなんだ
35 21/07/30(金)22:24:03 No.829317880
Wikipediaみたくしょっちゅうクロールされてるようなサイトは元データ配布してたりするよ つか1ドメインから1万ページは気長にやりなよ…
36 21/07/30(金)22:24:31 No.829318096
GANを使ってテキスト生成とかも面白そう
37 21/07/30(金)22:25:50 No.829318730
10000秒なんて3時間弱じゃないか 寝て起きたら終わってるよ
38 21/07/30(金)22:26:05 No.829318849
1万ページなら1週間もかかんなくねえか 10秒感覚くらいにしたほうが迷惑はかからんぞ あと自然言語処理のレコメンドは非常に難しいからスクレイプしながら別軸でモデル作成勧めてたほうがいい 俺は詳しくないからDL全然分からんけどWord2vecでクラスタリングしてレコメンドすんのかなあって感じ
39 21/07/30(金)22:32:30 No.829321781
いや1万ページってのはあくまで例えだよ! ページ数×秒必要になるな…って考えたらなんかこう……あれな気分になっちゃった 上で言われてるようにザイトとherokuあたりで平行で走らせておけば二分の一になるしその間にモデル作成進めておくね ありがとう
40 21/07/30(金)22:34:12 No.829322570
ファイルのダウンロードだけならPythonを使わなくてもダウンローダーのアプリを使った方が楽では?
41 21/07/30(金)22:34:33 No.829322724
>それでいいけどskeb嫌いも大概にしなよ… このスレでとらやskebって言葉出してるのお前だけじゃね?
42 21/07/30(金)22:34:43 No.829322796
隠語の辞書作るのが多分いちばん難しいんじゃねえかな shimejiだけだと多分品詞別にキレイに切れない予感がする 一番のキモで一番大変な前処理になりそう
43 21/07/30(金)22:36:10 No.829323497
学術的なことやってるなら元データくれって言ってみるのも一つの手だよ… あと自分が欲しがるようなデータは既に同じこと考えてる人がいて共有化されてることもある それがダメならアクセスを並列化するしか無いよ 止めたほうがいいけど
44 21/07/30(金)22:38:36 No.829324572
そもそも短時間の連続アクセスをやめろって話なので 別経路でアクセスするから大丈夫っていうのは全く解決になってないからな おあしすしてるだけだぞ…
45 21/07/30(金)22:38:38 No.829324584
mecabだった…
46 21/07/30(金)22:39:01 No.829324780
日本語は英語より圧倒的に面倒くさい