JavaScriptでインフィニティスクロールを使用しているサイトへのスクレイピングについて | ワードプレス魔改造屋

JavaScriptでインフィニティスクロールを使用しているサイトへのスクレイピングについて

>>見たところJavaScriptでインフィニティスクロールという仮想的な機能を使った特殊なページであるため、ピンポイントでの取得はできないようです。

この場合、本文も自動投稿するとしたら全ての本文をスクレイピングしたものをあとで記事ごとに切り分けてブログに投稿という方法しかないですかね?何か開発者視点でこのタイプWebサイトに対してのこのツールの使用上の良いアイデアとかありますか?(この手のJavaを使用したメディアサイトが最近よく目にするので何か良いアイデアあればご教授いただければ幸いです。)

ご迷惑おかけしてすいません、引き続きよろしくお願いいたします。

コメント

  1. 2019/11/18(月) 19:34:05
    取得したいRSSフィードが以下だとして
    https://cointelegraph.com/rss

    例えばこの記事を取得する場合
    https://cointelegraph.com/news/bitcoin-rewards-app-lolli-responds-to-alibabas-denial-of-partnership

    本文に相当するクラスは「.post-content」となります。
    アイキャッチを含まない本文だけであれば「.post-full-text」となります。
    この指定でやってみれば単発の記事だけは取得できます。
    しかし、全ては取得はできません。

    スクレイピングというのは、実データを取得するためのもので、スクリプトで生成されたものについては実データではなくブラウザが処理して表示している仮想データとなります。
    よって、取得しようとすると実際にはデータがないので取得ができない、ということになります。
    もっと具体的に書くとPHPはブラウザではないため、JavaScriptをレンダリングできません。

記事に戻る

コメントを残す

CAPTCHA