スクレイピング講座 その1 スクレイピングとは? | ワードプレス魔改造屋

スクレイピング講座 その1 スクレイピングとは?

スクレイピングについての問い合せが多いのでスクレイピング講座を開催します。
スクレイピングの方法は色々とあるのですが、私のプラグインではCSSのセレクタに準じた方法で行います。
CSS(スタイルシート)を学んだことがある人であれば簡単にスクレイピングをマスターできます。

ウェブスクレイピングはテクニック

まずスクレイピングの意味ですが、正しくはウェブスクレイピングと呼ばれるものでテクニックのひとつです。
スクレイピングとはウェブページのHTMLデータを取得して、特定のデータを抽出、整形し直すことを意味します。

スクレイピングの機能自体はブラウザにはなく、なんらかのプログラムで実現します。
具体的には私の開発したプラグインにスクレイピング機能があるのですが、問題は取得したい範囲を特定するセレクタの指定が初心者には難しいようです。
セレクタというのは、セレクト(選択)をするという意味です。

セレクタを使って欲しいデータだけを抽出することが目的

このセレクタを指定しないと、余計なデータまで取得してしまいます。
例えば、取得したウェブページのHTMLデータの中で、天気予報のデータがあったとします。
その天気予報のデータだけを取得したいのであれば、HTMLデータの中で天気予報のデータを部分的に指定してあげる必要があります。
部分的に指定するためにセレクタを使います。
セレクタはエクセルのようなもので、表計算シートをA1~C1のように指定するようなものです。

セレクタは主に5つある

セレクタの指定にはルールがあります。
主なルールは5つです。

・タグセレクタ
・IDセレクタ
・クラスセレクタ
・属性セレクタ
・疑似セレクタ

これらのセレクタテクニックを駆使して、HTMLデータの特定の範囲を取得するわけです。

コメント

記事に戻る

コメントを残す

CAPTCHA