いわいわします。
うびだー!
あけましてくれやがりますね。izukoです。
この記事は、雑談Slack Advent Calendar 2019 の18日目の記事だよ。
2019年8月頃から少しづつすすめてきた、某工口動画投稿サイトいわいわのウェブスクレイピングからDiscordチャンネルへのオススメ通知までの実際についてのおはなしです。
- 動機はいわいわ
- すくれいぴんぐしていわいわ
- DB活用でいわいわ
- らずぱい4でNTFSのsambaNASいわいわ共有
- 毎日Discord Botにいわいわ 人気投稿ピックアップを送る
- ファイル名に絵文字を含むいわいわm3uプレイリスト
- いかがでしたか
動機はいわいわ
2017年頃から、朝おきて昨夜分のいわいわ投稿を全部ダウンロード。そして尋常●学校に登校、楽しくおべんきょう。楽しい学校から帰ったら日付が変わる前にDL。と毎日いわいわ作業していましたが、2019年に入り投稿数が多すぎるという問題がのしかかってきました。
普段の投稿チェック→DL作業は最適化され職人芸的所作と化していたのですが 同時DL数限界による切断や速度低下、そもVRゲーミングPCをわざわざ起動して毎朝30分近くを費やしてやること?ゲームしろよ電気代の無駄いわいわするという心の声も次第に大きくなり。。。。
そして頃は夏休み前。学級会で自由研究の話が出た際に「そんなんスクレイピングでやればいいんじゃないの」と威風堂々発言したところ、先生に「なるほど~^^。でもみんなわからないから、さいしょに、いずこちゃんがやって、おしえてあげてね。^^」
などと宿題を積まれてしまい、
どうせならいわいわ作業の自動化を題材に・・・!と一念発起してデス・ストランディング、いやデブスクリーミングに挑戦しようと思い立ったわけですあああああぁあぁぁ(´Д`)
ちがったウェブスクレイピングでした。いわいわ。
すくれいぴんぐしていわいわ
まず手元のWindows用Python環境で適当にQiitaのスクレイピング記事を写経し、SQLite3にデータを入れてくことにしました。
Qiitaで記事かいた⇒スクレイピングとデータ保存
DB活用でいわいわ
Qiitaの記事には書けませんでしたが、全公開投稿データをDB化してこんなに沢山のメリットが・・・。
ただの自慢記事だから読まなくていいよ。⇒DB化してよかったこと、活用法
らずぱい4でNTFSのsambaNASいわいわ共有
2019年初頭には保存されたいわいわ動画は4TB・3万本を超え、投稿者フォルダも3千を超えました。
これはいけません、あふれてしまいます。
そこでたまたま衝動買いしたRaspberryPi4に、USB3.0のHDD2個をつけてNTFSのNASとして使うことにしました。快適です。
ついでに作成したいわいわスクリプトを全自動化してcronに登録しました。やったね!
毎日Discord Botにいわいわ 人気投稿ピックアップを送る
完全自動化が完了して、あまりいわいわのサイトを見なくなってしまいました。これはいけません。人気の投稿には敏感でありたいですよね。そこで・・・
Qiitaで記事かいた⇒ DiscordのwebhookにEmbedデータを送る
ファイル名に絵文字を含むいわいわm3uプレイリスト
今まで everything
で検索した新着リストを動画プレイヤーにコピペするだけで新着動画リストの作成作業は完了でした。ところがNAS後初の作業で新着リストの作成に3分、動画リストのコピペに15分近くかかる事態が発覚!あわてて新着リスト作成のBashスクリプトを書いてみたけど 、UTF-8でm3uを作成しても、絵文字を含むタイトルの動画だけ再生できません。
sakura editorでm3uを読み込み、CESU-8
形式で保存することで解決!
mpc-hc用のプレイリスト作成などで困ってる人の参考になればいいですね(てきとう)
いかがでしたか
以上、適当に〆ましたがいわいわとは一体なんだったのか・・・? 謎は解決しないまま来年も適当にいわいわ できればいいなとおもいます!
次は19日目 ごっちさんのたびに出ますです。 いってらっしゃいませ。