Linux(CentOS)にPhantomJSをインストールしてPHPでスクレイピングする方法

著者:
投稿日:
更新日:

ということで、めちゃくちゃ楽にスクレイピングが可能なPhantomJSのインストール方法を羅列していきます。


目次
  1. PhantomJSインストール
  2. PhantomJSの使い方
  3. PhantomJSの年度毎の経緯
  4. まとめ

PhantomJSインストール

cd /usr/local/src/
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar jxf phantomjs-2.1.1-linux-x86_64.tar.bz2 
cp phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/bin/
phantomjs --version

PhantomJSの使い方

// $URL はスクレイピングしたいページのURL
<?php
	$get_js = "var page = require;
	// PhantomJS実行
	exec("phantomjs /var/www/html/get.js", $output, $status);

// $outputを料理
スクレイピングした内容が$outputに入っているからここからは自由に$outputを料理する。

周りくどい記述かもしれませんが、$URL部分は動的に変えてスクレイピングしていくことが想定されますのでこの書き方が最小構成となります。


たったこれだけ。めちゃくちゃ簡単に使えるんです。

PhantomJSの年度毎の経緯

PhantomJSは、ヘッドレスブラウザとして広く使われてきましたが、最近では開発が停止しており、代替としてPuppeteerやHeadless Chromeが推奨されています。


以下は、PhantomJSの主な年度ごとの状況の概要です。

  • 2011年:PhantomJSが初めてリリースされました。当時は、Webページのスクレイピングや自動テストに広く使用されました。
  • 2015年:PhantomJS 2がリリースされました。このバージョンでは、ES6のサポートやWebRTCのサポートなどが追加されました。
  • 2017年:PhantomJSの開発が中止されることが発表されました。この時点で、開発者はPuppeteerやHeadless Chromeなどの代替ツールを探すことを推奨しています。
  • 2018年:PhantomJSの開発は公式に中止されました。その後、セキュリティアップデートが提供されたものの、新しい機能の追加やバグ修正は行われていません。
  • 2020年:PhantomJSの最新バージョンであるv2.1.1がリリースされましたが、これはメンテナンスのためのアップデートであり、新しい機能の追加は行われていません。

まとめ

以上のように、PhantomJSは開発が停止しており、代替ツールの使用が推奨されていますが、個人的にはかなり使い勝手がよく今だにPhantomJS+PHP+cronでスクレイピングを行なっています。


CMSの悩みはBasicで一気に解決しましょう
  1. 完全無料
    Basicはオープンソースで運営されています。誰しもが自由にBasicを利用できます。
  2. 超軽量化で超高速配信
    通常のCMSよりページ容量を70%以上を自動で圧縮を行い更に自動で静的化・圧縮化されたページが配信されます。
  3. SEOにつよつよ
    70%以上軽量化に加えて最新SEOに対応した構造で静的化・圧縮化されたページはライバルサイトより圧倒的に評価されます
  4. ライバルサイトより一歩前にいけるCMSでサイトを構築しませんか?

    →より詳しく

著者プロフィール
松岡宗谷

Basic https://basic.dance/ を運営しています。スペースナビ 代表取締役。スタートアップ界隈でCTO→Sharetube創業→スペースナビ創業→UXSEOリリース、ResizeCDNリリース、あまてむリリース。世界で最もSEOに効くCMS Basicリリース。個人の夢は完全義体化。会社の夢は宇宙事業。プログラマーは死ぬまで現役でありたい