Linux(CentOS)にPhantomJSをインストールしてPHPでスクレイピングする方法
ということで、めちゃくちゃ楽にスクレイピングが可能なPhantomJSのインストール方法を羅列していきます。
目次
- PhantomJSインストール
- PhantomJSの使い方
- PhantomJSの年度毎の経緯
- まとめ
PhantomJSインストール
cd /usr/local/src/
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar jxf phantomjs-2.1.1-linux-x86_64.tar.bz2
cp phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/bin/
phantomjs --version
PhantomJSの使い方
// $URL はスクレイピングしたいページのURL
<?php
$get_js = "var page = require;
// PhantomJS実行
exec("phantomjs /var/www/html/get.js", $output, $status);
// $outputを料理
スクレイピングした内容が$outputに入っているからここからは自由に$outputを料理する。
周りくどい記述かもしれませんが、$URL部分は動的に変えてスクレイピングしていくことが想定されますのでこの書き方が最小構成となります。
たったこれだけ。めちゃくちゃ簡単に使えるんです。
PhantomJSの年度毎の経緯
PhantomJSは、ヘッドレスブラウザとして広く使われてきましたが、最近では開発が停止しており、代替としてPuppeteerやHeadless Chromeが推奨されています。
以下は、PhantomJSの主な年度ごとの状況の概要です。
- 2011年:PhantomJSが初めてリリースされました。当時は、Webページのスクレイピングや自動テストに広く使用されました。
- 2015年:PhantomJS 2がリリースされました。このバージョンでは、ES6のサポートやWebRTCのサポートなどが追加されました。
- 2017年:PhantomJSの開発が中止されることが発表されました。この時点で、開発者はPuppeteerやHeadless Chromeなどの代替ツールを探すことを推奨しています。
- 2018年:PhantomJSの開発は公式に中止されました。その後、セキュリティアップデートが提供されたものの、新しい機能の追加やバグ修正は行われていません。
- 2020年:PhantomJSの最新バージョンであるv2.1.1がリリースされましたが、これはメンテナンスのためのアップデートであり、新しい機能の追加は行われていません。
まとめ
以上のように、PhantomJSは開発が停止しており、代替ツールの使用が推奨されていますが、個人的にはかなり使い勝手がよく今だにPhantomJS+PHP+cronでスクレイピングを行なっています。
CMSの悩みはBasicで一気に解決しましょう
- 完全無料Basicはオープンソースで運営されています。誰しもが自由にBasicを利用できます。
- 超軽量化で超高速配信通常のCMSよりページ容量を70%以上を自動で圧縮を行い更に自動で静的化・圧縮化されたページが配信されます。
- SEOにつよつよ70%以上軽量化に加えて最新SEOに対応した構造で静的化・圧縮化されたページはライバルサイトより圧倒的に評価されます
ライバルサイトより一歩前にいけるCMSでサイトを構築しませんか?