スクレイピングプレスのセレクタで削除するパターン(セレクタ::置換文字列 改行で複数指定)で指定タグが削除できない | ワードプレス魔改造屋

スクレイピングプレスのセレクタで削除するパターン(セレクタ::置換文字列 改行で複数指定)で指定タグが削除できない

【その疑問や悩みについてネット検索で調査済みですか?】

はい

【その疑問や悩みはマニュアルには載っていないことですか?】

はい

【阿修羅ワークスのプラグインは全て最新ですか?】

はい

【結果として今どうなっていますか?】

セレクタで削除するパターン(セレクタ::置換文字列 改行で複数指定)で指定タグが削除できないです。
セレクタの指定の仕方が間違っているのかと思い、シンプルなdivやh1などで指定しても削除された形跡がないです。

そもそもの理解として、の中にあるスクレイピングした情報の中にあるタグを指定して、余計なタグを消して整形したいと考えていました。

1.の中でbodyタグ全体を指定してがつっと情報を取得する。
2.余計なタグがたくさんあるので、「セレクタで削除するパターン」という部分でいらない部分を消し、
3.必要な部分をテンプレートで追加

という使い方をしたいのですが何かアドバイスいただけると幸いです。

【何をしたらそうなったか直前の操作や変更箇所について教えて下さい。】

「セレクタで削除するパターン(セレクタ::置換文字列 改行で複数指定)」で
h1::アイキャッチ
div::ほほ

でなどと入力して検証したが、想定した挙動をしなかった。

【以前はどのような状態でしたか?】

動いていない。

【どのような状態になればいいと考えていますか?】

例えば、

<time class=\"update_day\" datetime=\"2020-11-29\"> 2020-11-29 更新</time><!–ソーシャルここから–>

というタグが取得していたとして、

time.class::\"\"

とするとこのタグの部分のみ削除されるという認識でいます。

コメント

  1. 2020/12/01(火) 09:16:17
    質問されている「1.の中でbodyタグ全体を指定してがつっと情報を取得する。」の「の中で」の最初の部分が消えているようです。「なに」の中でしょうか?
    ※一部の文字列はセキュリティのため表示されない可能性があります
  2. 2020/12/01(火) 09:18:58
    timeのタグ部分を削除したい場合の削除指定が間違っているようです。
    単に消すだけであれば、

    time.class::""

    ではなく

    time.update_day::

    と指定します。
  3. 2020/12/01(火) 09:20:33
    スクレイピングテスト画面の「スクレイピングコンテンツ」に直接HTMLを入力してお試し下さい。
  4. 2020/12/03(木) 16:40:29
    ご回答ありがとうございます、目的は達成できました。

記事に戻る

コメントを残す