スクレイピングをしてみよう PEARインストール編

前の記事から随分経っちゃったけど久しぶりに書いていきますというような風化した前置きは致しません。

仕事とは関係なく、自分で何かサイトを作って行きたいなと随分前から思っていたものの全くの手付かずだったんですが、3ヶ月前ぐらいに一つサイトを公開してアクセスも伸びてきたので、次のサイトつくろうと思います。

ある商品に特化したサイトを作りたいんですが、情報が多すぎてデータを手で取りに行くのは時間的に無理なのでなんかいい方法ないかなと思って色々探していたところ「スクレイピング」がいいんじゃないかと決めました。

正直phpというか言語的なものは苦手なんですが、避けても通れないので・・・・
ただ、一つ前のサイトを作ったおかげでwordpressもある程度触れるようになっているのがきっかけとして大きいのかもしれません。やっぱなんでもやらないとダメですね。

スクレイピングするには、パーサーを使ってるという方が多かったので探したところ、

誰でもスクレイピング!DOM要素を引っこ抜くSimple HTML Dom-ITかあさん
http://www.kaasan.info/archives/1457

ここで「PHP Simple HTML DOM Parser」というライブラリの存在を知りました。
んで、PEARっていうものに入ってるMDB2.phpというものが必要みたいだったんですが、

僕が使ってるエックスサーバーにはインストールされていないみたいでまた検索の旅に・・・・。

そして見つけたのが、

ITキヲスク | XserverにPEARをインストールする方法(2011年4月ver.)
http://smkn.xsrv.jp/blog/2011/04/way-of-install-pear-in-xserver/

もうそのままやってけばいい感じでした。
※途中でMDB2.phpにはチェック入れないといけなかったけど

ステップ1 pear本体のインストール

「http://pear.php.net/go-pear」にアクセスし、表示されたテキスト全文をコピーする。
コピーした文章を「install.php」という名前で保存し、デスクトップに置いておく。
FTPでサーバに入り、ホームディレクトリ(/public_html)の直下に、新規に”pear”という名前のディレクトリを作成する(「/public_html/pear」となる)。
作成した”pear”ディレクトリのパーミッションが”755”になっているか確認する。
”pear”ディレクトリの中に、デスクトップの「install.php」をアップロードする。
「http://ドメイン名/pear/install.php」にアクセスする。
画面中央くらいにある「NEXT>>」をクリックする。
11番目の記述部、「php.exe path, optimal」に”/usr/bin/php5”と入力して、画面最下部の「Install」をクリックする。
2つのバーのうち、上の方のバーが100%になったら、画面下部にある「PEAR Installation path」の値ををメモしておく。
画面はそのままにして、FTPで「http://ドメイン名/pear/」内に、新しく生成された「index.php」をダウンロードする。
ダウンロードした「index.php」をエディタで開き、”$pear_dir”の値を「’/home/ユーザー名/ドメイン名/public_html/pear/PEAR’」に書き換える。
「index.php」を上書きアップロードする。
ブラウザに戻り、画面最下部の「Start Web Frontend of the PEAR Installer >>」をクリックする。
こんなような画面が表示されたら、とりあえずステップ1は問題なし!
ステップ2 pear本体のセキュリティー&アップデート

http://www.chama.ne.jp/access/index.htmにアクセスし、サイト中段辺りにある「パスワード暗号化入力欄」に、自分が設定したいIDとパスワードを記述して「暗号の作成(送信)」をクリックする。
切り替わった画面に表示されるコピペ用文字列をコピーする。
エディタを開き、先ほどコピーした文字列を貼り付け、「.htpasswd」という名前でデスクトップに保存する。
同じくエディタで、下記の文章をコピペして、「.htaccsess」という名前でデスクトップに保存する。
AuthUserFile フルパス/.htpasswd
AuthGroupFile /dev/null
AuthName “Input ID and Pass.”
AuthType Basic
require valid-user

deny from all

FTPでサーバに入り、「index.php」があるディレクトリに「.htpasswd」と「.htaccess」をアップロードする。
「http://ドメイン名/pear/index.php」にアクセスし、IDとパスワードを入力する。
画面左部にあるメニューの「Channel Management」をクリックし「Update All Channels」をクリックする。
画面が切り替わったら、画面中央くらいに表示される「Click here to list all channels」をクリックする。
ステップ3 pear本体の挙動確認

画面右上の「Search package by name」と書かれた検索窓に”PEAR_INFO”と入力し「GO」をクリックする。
画面中央くらいにある、緑色の「+」をクリックする。
ポップアップが表示されたら「OK」を押す。
「install ok」と表示されたら、画面左部にあるメニューの「Package Management」をクリックし、表示された一覧に「PEAR_Info」があるか確認する。
ステップ4 pearライブラリの挙動確認

エディタを開き、下記の文章をコピペして、「.htaccess」という名前でデスクトップに保存する。
SetEnv PHP_PEAR_SYSCONF_DIR “/home/ユーザー名/ドメイン名/public_html/pear”
同じくエディタに下記の文章をコピペして、「info.php」という名前でデスクトップに保存する。
ini_set(“include_path”, “/home/ユーザー名/ドメイン名/public_html/pear/PEAR”);
require_once “PEAR/Info.php”;
$info = new PEAR_Info();
$info->show();
?>
FTPでホームディレクトリ(/public_html)の直下に、新規に”test”というディレクトリを作成し、その中に先ほど作った「.htaccess」と「info.php」をアップロードする。
ブラウザで「http://ドメイン名/test/info.php」にアクセスしてみて、こんなような画面が表示されたら、もうカンペキ!
セキュリティーのため、testディレクトリごと削除する。
enjoy PEAR life!

すごく丁寧でわかりやすかった。
ちょっと拍子抜けしたけどすんなりとインストールも終わり、
次は簡単なサンプル書いてみようと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です