Googleの画像検索の画像をスクレイピングをパッとやれるコマンド(スクリプト)は
https://github.com/hardikvasa/google-images-download
で十分.
使い方
jsonファイルに複雑な検索設定して呼び出すこともコマンドラインで直接-kで指定することもできます.簡単な-kの方法を提示すると
googleimagesdownload -k てすと
もしjsonファイルで指定する場合は以下でフォーマットが示されています.
https://github.com/hardikvasa/google-images-download#id7
色の指定(-c)や検索数(–limit)、サイズ(–size)の設定などもできて非常に楽
pythonのパッケージにもなっているのでpythonコードからも自然に呼び出せるのも楽.
古い仕様
久々に上のレポジトリを確認したら、以下は古かったです.
機械学習用のデータ画像を集めようと思ったら、結構頻繁に活用する.
python google-images-download.py -k こんにちわ
-k : キーワード
となる形. もし、複数の単語を連続した一つの塊としたいなら
python google-images-download.py -k こんにちわ\ 類語
のようにバックスラッシュ\ をつければオーケー.バックスラッシュの後に空白はもちろん必要です.そのためにバックラッシュをつけているのですから.
最大100件までなら数を指定してダウンロードしてくれる.後の方がリンク切れとか画像が落とせないとか単語に関係ないものが多いイメージ.(根拠なし)