虹裏img歴史資料館 - imgの文化を学ぶ

ここでは虹裏imgのかなり古い過去ログを閲覧することができます。

機械学... のスレッド詳細

削除依頼やバグ報告はメールフォームにお願いします。 個人情報,名誉毀損,侵害等について積極的に削除しますので、メールフォームより該当URLをご連絡いただけると助かります

21/07/30(金)21:39:13 No.829297174

機械学習のために必要なデータをスクレイピングしようとしたんだけど これ間隔に1秒必要とすると1万ぺージに分割されたデータ収集するには1万秒必要になるってことだよな? もっとなんかこう高速でデータ収集する方法ないのか

1 21/07/30(金)21:39:41 No.829297416

おっぱいそん

2 21/07/30(金)21:41:01 No.829298077

1秒で2回アクセスすればいいんじゃない?

3 21/07/30(金)21:41:33 No.829298315

なんかまったく同じスレ文前も見たことある気がする 収集だけなら並列でやりゃいいんじゃ

4 21/07/30(金)21:41:52 No.829298476

>1秒で2回アクセスすればいいんじゃない? 間隔は法律上1秒にしとけみたいな記事みたけど1秒以下にしていいのか?

5 21/07/30(金)21:43:22 No.829299159

最悪業務妨害になるから気をつけて!

6 21/07/30(金)21:43:32 No.829299222

1万秒なら1晩置いとけばすぐじゃん

7 21/07/30(金)21:43:39 No.829299267

聞いてる暇があったらバックグラウンドで走らせときゃいいんじゃねぇかな…

8 21/07/30(金)21:44:20 No.829299558

ぶっちゃけ相手のシステムの強さにもよるしわからん 図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね?

9 21/07/30(金)21:44:26 No.829299599

librahack事件は1アクセス/秒でアウトだったし…

10 21/07/30(金)21:45:45 No.829300212

1回やりきれば終わりなら1万秒待てばいいんじゃない

11 21/07/30(金)21:46:13 No.829300446

同じIPから続けざまにアクセスしてると そのうちブロックされたり遅延かけてきたりするので 安心して欲しい

12 21/07/30(金)21:46:39 No.829300625

>ぶっちゃけ相手のシステムの強さにもよるしわからん >図書館のシステムがよわよわすぎたやつは最終的にセーフ判定だったよね? 起訴猶予だからこの辺で勘弁してやらあ!くらいのニュアンス

13 21/07/30(金)21:47:12 No.829300885

SIM複数契約してラズパイとかで並行で走らせれば?

14 21/07/30(金)21:47:24 No.829300972

関係ないけどスレ「」はどんなデータを集めようとしているの?

15 21/07/30(金)21:47:36 No.829301057

じゃあbotネットでいろんなIPからアクセスさせれば…

16 21/07/30(金)21:51:35 No.829302964

日本の著作権法すげえよね 機械学習屋に優しい

17 21/07/30(金)21:52:20 No.829303347

>関係ないけどスレ「」はどんなデータを集めようとしているの? DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい

18 21/07/30(金)21:55:33 No.829304904

>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい 怒られるやつでは?

19 21/07/30(金)21:56:18 No.829305276

1万秒って166分ぐらいだから3時間もあれば終わるし 一度スクレイピングしちゃえば十分なのであれば大した問題じゃなくない?

20 21/07/30(金)21:57:35 No.829305886

レビュー集めたいとなるとある程度の頻度で更新するデータだなあ

21 21/07/30(金)21:59:32 No.829306784

DMMならAPI公開してそう

22 21/07/30(金)21:59:44 No.829306866

やっぱエロは強いな

23 21/07/30(金)22:02:17 No.829307951

DMMはたとえば巨乳AVだけに限っても5万作品ぐらいあるからな…

24 21/07/30(金)22:04:48 No.829309054

一週間くらい動かし続けてればなんとかなるだろ

25 21/07/30(金)22:04:54 No.829309102

>>DMMやDLsiteとかのエロ関係のレビュー情報集めて自分用のエロレコメンド作りたい >怒られるやつでは? そうなの!?

26 21/07/30(金)22:06:21 No.829309684

さっきのスレで味を占めたの?!

27 21/07/30(金)22:08:15 No.829310567

>さっきのスレで味を占めたの?! さっきのスレってなんだよ!?

28 21/07/30(金)22:09:22 No.829311136

>さっきのスレってなんだよ!? とらのアレでしょ君?

29 21/07/30(金)22:14:13 No.829313246

スクレイピングで情報収集してんのに文句つけんな 相手のお目こぼしでデータ使えてるだけという立場をわきまえろ

30 21/07/30(金)22:14:19 No.829313288

>>さっきのスレってなんだよ!? >とらのアレでしょ君? そのとらのスレってやつで 別の「」とレスポンチバトルして負けたのが悔しくて 憂さを晴らすためにこのスレまで荒そうとしてるの? 恥ずかしくない?

31 21/07/30(金)22:16:17 No.829314190

レビュー情報あつめて感情分析とかするの?

32 21/07/30(金)22:19:33 No.829315744

>レビュー情報あつめて感情分析とかするの? 感情分析は現状だと精度よくないって聞くし とりあえずはレビュー文面と製品紹介文あたりに頻出する単語でクラスタリングするところから始めようかな ってぼやっと考えてるけど正直具体的な予定は未定

33 21/07/30(金)22:20:09 No.829316011

>そのとらのスレってやつで >別の「」とレスポンチバトルして負けたのが悔しくて >憂さを晴らすためにこのスレまで荒そうとしてるの? >恥ずかしくない? ボロ負けしたのに新しいスレなら切り替わって攻守逆転するつもりでいるのか… それでいいけどskeb嫌いも大概にしなよ…

34 21/07/30(金)22:22:27 No.829317096

なんだかよく知らんが別のスレのもめ事を持ち込むのはどうなんだ

35 21/07/30(金)22:24:03 No.829317880

Wikipediaみたくしょっちゅうクロールされてるようなサイトは元データ配布してたりするよ つか1ドメインから1万ページは気長にやりなよ…

36 21/07/30(金)22:24:31 No.829318096

GANを使ってテキスト生成とかも面白そう

37 21/07/30(金)22:25:50 No.829318730

10000秒なんて3時間弱じゃないか 寝て起きたら終わってるよ

38 21/07/30(金)22:26:05 No.829318849

1万ページなら1週間もかかんなくねえか 10秒感覚くらいにしたほうが迷惑はかからんぞ あと自然言語処理のレコメンドは非常に難しいからスクレイプしながら別軸でモデル作成勧めてたほうがいい 俺は詳しくないからDL全然分からんけどWord2vecでクラスタリングしてレコメンドすんのかなあって感じ

39 21/07/30(金)22:32:30 No.829321781

いや1万ページってのはあくまで例えだよ! ページ数×秒必要になるな…って考えたらなんかこう……あれな気分になっちゃった 上で言われてるようにザイトとherokuあたりで平行で走らせておけば二分の一になるしその間にモデル作成進めておくね ありがとう

40 21/07/30(金)22:34:12 No.829322570

ファイルのダウンロードだけならPythonを使わなくてもダウンローダーのアプリを使った方が楽では?

41 21/07/30(金)22:34:33 No.829322724

>それでいいけどskeb嫌いも大概にしなよ… このスレでとらやskebって言葉出してるのお前だけじゃね?

42 21/07/30(金)22:34:43 No.829322796

隠語の辞書作るのが多分いちばん難しいんじゃねえかな shimejiだけだと多分品詞別にキレイに切れない予感がする 一番のキモで一番大変な前処理になりそう

43 21/07/30(金)22:36:10 No.829323497

学術的なことやってるなら元データくれって言ってみるのも一つの手だよ… あと自分が欲しがるようなデータは既に同じこと考えてる人がいて共有化されてることもある それがダメならアクセスを並列化するしか無いよ 止めたほうがいいけど

44 21/07/30(金)22:38:36 No.829324572

そもそも短時間の連続アクセスをやめろって話なので 別経路でアクセスするから大丈夫っていうのは全く解決になってないからな おあしすしてるだけだぞ…

45 21/07/30(金)22:38:38 No.829324584

mecabだった…

46 21/07/30(金)22:39:01 No.829324780

日本語は英語より圧倒的に面倒くさい