機械学... のスレッド詳細 21/07/30(金)21:39:13のログ

画像ファイル名:1627648753724.png 21/07/30(金)21:39:13 No.829297174

機械学習のために必要なデータをスクレイピングしようとしたんだけどこれ間隔に１秒必要とすると１万ぺージに分割されたデータ収集するには１万秒必要になるってことだよな？もっとなんかこう高速でデータ収集する方法ないのか

1 21/07/30(金)21:39:41 No.829297416

おっぱいそん

2 21/07/30(金)21:41:01 No.829298077

1秒で2回アクセスすればいいんじゃない？

3 21/07/30(金)21:41:33 No.829298315

なんかまったく同じスレ文前も見たことある気がする収集だけなら並列でやりゃいいんじゃ

4 21/07/30(金)21:41:52 No.829298476

>1秒で2回アクセスすればいいんじゃない？間隔は法律上１秒にしとけみたいな記事みたけど１秒以下にしていいのか？

5 21/07/30(金)21:43:22 No.829299159

最悪業務妨害になるから気をつけて！

6 21/07/30(金)21:43:32 No.829299222

1万秒なら1晩置いとけばすぐじゃん

7 21/07/30(金)21:43:39 No.829299267

聞いてる暇があったらバックグラウンドで走らせときゃいいんじゃねぇかな…

8 21/07/30(金)21:44:20 No.829299558

ぶっちゃけ相手のシステムの強さにもよるしわからん図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね？

9 21/07/30(金)21:44:26 No.829299599

librahack事件は1アクセス/秒でアウトだったし…

10 21/07/30(金)21:45:45 No.829300212

1回やりきれば終わりなら1万秒待てばいいんじゃない

11 21/07/30(金)21:46:13 No.829300446

同じIPから続けざまにアクセスしてるとそのうちブロックされたり遅延かけてきたりするので安心して欲しい

12 21/07/30(金)21:46:39 No.829300625

>ぶっちゃけ相手のシステムの強さにもよるしわからん >図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね？起訴猶予だからこの辺で勘弁してやらあ！くらいのニュアンス

13 21/07/30(金)21:47:12 No.829300885

SIM複数契約してラズパイとかで並行で走らせれば？

14 21/07/30(金)21:47:24 No.829300972

関係ないけどスレ「」はどんなデータを集めようとしているの？

15 21/07/30(金)21:47:36 No.829301057

じゃあbotネットでいろんなIPからアクセスさせれば…

16 21/07/30(金)21:51:35 No.829302964

日本の著作権法すげえよね機械学習屋に優しい

17 21/07/30(金)21:52:20 No.829303347

>関係ないけどスレ「」はどんなデータを集めようとしているの？ DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい

18 21/07/30(金)21:55:33 No.829304904

>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい怒られるやつでは？

19 21/07/30(金)21:56:18 No.829305276

1万秒って166分ぐらいだから3時間もあれば終わるし一度スクレイピングしちゃえば十分なのであれば大した問題じゃなくない？

20 21/07/30(金)21:57:35 No.829305886

レビュー集めたいとなるとある程度の頻度で更新するデータだなあ

21 21/07/30(金)21:59:32 No.829306784

DMMならAPI公開してそう

22 21/07/30(金)21:59:44 No.829306866

やっぱエロは強いな

23 21/07/30(金)22:02:17 No.829307951

DMMはたとえば巨乳AVだけに限っても５万作品ぐらいあるからな…

24 21/07/30(金)22:04:48 No.829309054

一週間くらい動かし続けてればなんとかなるだろ

25 21/07/30(金)22:04:54 No.829309102

>>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい >怒られるやつでは？そうなの！？

26 21/07/30(金)22:06:21 No.829309684

さっきのスレで味を占めたの？！

27 21/07/30(金)22:08:15 No.829310567

>さっきのスレで味を占めたの？！さっきのスレってなんだよ！？

28 21/07/30(金)22:09:22 No.829311136

>さっきのスレってなんだよ！？とらのアレでしょ君？

29 21/07/30(金)22:14:13 No.829313246

スクレイピングで情報収集してんのに文句つけんな相手のお目こぼしでデータ使えてるだけという立場をわきまえろ

30 21/07/30(金)22:14:19 No.829313288

>>さっきのスレってなんだよ！？ >とらのアレでしょ君？そのとらのスレってやつで別の「」とレスポンチバトルして負けたのが悔しくて憂さを晴らすためにこのスレまで荒そうとしてるの？恥ずかしくない？

31 21/07/30(金)22:16:17 No.829314190

レビュー情報あつめて感情分析とかするの？

32 21/07/30(金)22:19:33 No.829315744

>レビュー情報あつめて感情分析とかするの？感情分析は現状だと精度よくないって聞くしとりあえずはレビュー文面と製品紹介文あたりに頻出する単語でクラスタリングするところから始めようかなってぼやっと考えてるけど正直具体的な予定は未定

33 21/07/30(金)22:20:09 No.829316011

>そのとらのスレってやつで >別の「」とレスポンチバトルして負けたのが悔しくて >憂さを晴らすためにこのスレまで荒そうとしてるの？ >恥ずかしくない？ボロ負けしたのに新しいスレなら切り替わって攻守逆転するつもりでいるのか… それでいいけどskeb嫌いも大概にしなよ…

34 21/07/30(金)22:22:27 No.829317096

なんだかよく知らんが別のスレのもめ事を持ち込むのはどうなんだ

35 21/07/30(金)22:24:03 No.829317880

Wikipediaみたくしょっちゅうクロールされてるようなサイトは元データ配布してたりするよつか1ドメインから1万ページは気長にやりなよ…

36 21/07/30(金)22:24:31 No.829318096

GANを使ってテキスト生成とかも面白そう

37 21/07/30(金)22:25:50 No.829318730

10000秒なんて3時間弱じゃないか寝て起きたら終わってるよ

38 21/07/30(金)22:26:05 No.829318849

1万ページなら1週間もかかんなくねえか 10秒感覚くらいにしたほうが迷惑はかからんぞあと自然言語処理のレコメンドは非常に難しいからスクレイプしながら別軸でモデル作成勧めてたほうがいい俺は詳しくないからDL全然分からんけどWord2vecでクラスタリングしてレコメンドすんのかなあって感じ

39 21/07/30(金)22:32:30 No.829321781

いや１万ページってのはあくまで例えだよ！ページ数×秒必要になるな…って考えたらなんかこう……あれな気分になっちゃった上で言われてるようにザイトとherokuあたりで平行で走らせておけば二分の一になるしその間にモデル作成進めておくねありがとう

40 21/07/30(金)22:34:12 No.829322570

ファイルのダウンロードだけならPythonを使わなくてもダウンローダーのアプリを使った方が楽では？

41 21/07/30(金)22:34:33 No.829322724

>それでいいけどskeb嫌いも大概にしなよ… このスレでとらやskebって言葉出してるのお前だけじゃね？

42 21/07/30(金)22:34:43 No.829322796

隠語の辞書作るのが多分いちばん難しいんじゃねえかな shimejiだけだと多分品詞別にキレイに切れない予感がする一番のキモで一番大変な前処理になりそう

43 21/07/30(金)22:36:10 No.829323497

学術的なことやってるなら元データくれって言ってみるのも一つの手だよ… あと自分が欲しがるようなデータは既に同じこと考えてる人がいて共有化されてることもあるそれがダメならアクセスを並列化するしか無いよ止めたほうがいいけど

44 21/07/30(金)22:38:36 No.829324572

そもそも短時間の連続アクセスをやめろって話なので別経路でアクセスするから大丈夫っていうのは全く解決になってないからなおあしすしてるだけだぞ…

45 21/07/30(金)22:38:38 No.829324584

mecabだった…

46 21/07/30(金)22:39:01 No.829324780

日本語は英語より圧倒的に面倒くさい

虹裏img歴史資料館

21/07/30(金)21:39:13 機械学... のスレッド詳細