node.jsでスクレイピングしてみる

初めまして。4月入社の山崎です。これが初投稿になります。
今回はnode.jsでスクレイピングをします。

経緯

とあるサイトをリニューアルしていて、旧サイトの静的ページからテキストなどのコンテンツを持ってきて新サイトのHTMLタグの中に貼り付けていくという作業はよくあると思います。

僕もとあるサイトのリニューアル時にそういった作業をやっていたのですが、旧サイトのよくある質問の質問と回答のページが分かれており、回答ページに行ってテキストをとってきてHTMLに貼り付けていました。
ただ、その質問も全部で100個くらいあり、1つ1つコピペするのは面倒くさいので、スクレイピングで特定のURLに一括アクセスし、テキストを引っ張ってきて、新サイトのHTML構造に埋め込み、HTMLを自動生成しようと思ったのがきっかけです。

僕はシェルスクリプトはほぼ書けず普段JSを使うことが多いため、node.jsを使うことにしました。

事前準備

まず、今回使用するライブラリをインストールします。今回の目的はあくまでHTMLを生成するためだけのもので、特にプロジェクトで使うわけではないので、グローバルインストールします。（nodeやnpmなどは事前にインストールされている前提）

$ npm install -g scraperjs

次に、scrape.jsを作成します。

$ touch scrape.js

作成したscrape.jsの先頭で先ほどインストールしたscraperjsを読み込みます。

const scraperjs = require('scraperjs');

requireのパスはそのファイルから一番近いnode_modulesディレクトリのパスを読みます。ですので、これだけではモジュールが見つからないと怒られます。
試しにnodeコマンドでnodeコンソールに入り

$ node
> global.module.paths

とうってみるとrequireがどこからのパスを優先的に読み時むのかが確認できます。そしてグローバルにインストールされたモジュールがどこにインストールされているかというのは

$ npm root -g

コマンドで確認できます。
そして、グローバルのnode_modulesディレクトリを参照できるようにするには環境変数$NODE_PATHにグローバルのnode_modulesのパスを追記する必要があります。
.bash_profileに以下を追記してください。

NODE_PATH=`npm root -g`
export NODE_PATH

シェルを再起動し、

$ echo $NODE_PATH

と打ったらグローバルのnode_modulesのパスが環境変数$NODE_PATHに入っているのがわかります。
ここまで終わったらrequireのエラーが解消して、モジュールが使えるようになったので、いよいよスクレイピング開始です。

HTMLを用意

実在するサイトから引っ張ってくるのもなんかあれなので、自分のローカル環境で適当にHTMLを作ってみました。
まずは、適当なディレクトリにfaqというディレクトリを作成し、スクレイピング対象となるHTMLを用意します。

<!-- 01.html -->
<html lang="ja">
<head>
<title>よくある質問１</title>
<meta charset="utf-8">
</head>
<body>
<h1>お名前は？</h1>
<p>山崎です。</p>
</body>
</html>

<!-- 02.html -->
<html lang="ja">
<head>
<title>よくある質問２</title>
<meta charset="utf-8">
</head>
<body>
<h1>出身は？</h1>
<p>静岡</p>
</body>
</html>

<!-- 03.html -->
<html lang="ja">
<head>
<title>よくある質問３</title>
<meta charset="utf-8">
</head>
<body>
<h1>血液型は？</h1>
<p>A型</p>
</body>
</html>

次にPHPのビルドインサーバーでWEBサーバーを起動します。

$ php -S 127.0.0.1:8000 -t ./faq

テキストを引っ張ってきて、新しくHTMLを生成する

旧サイトのHTMLを新しくこんな感じの構造に書き換えたいとします。

<dl>
<dt>質問1</dt>
<dd>質問1答え</dd>
<dt>質問2</dt>
<dd>質問2答え</dd>
<dt>質問3</dt>
<dd>質問3答え</dd>
</dl>

やっていきます。
URLが連番になっているのでページの分だけ処理を繰り返せるよう、ループを回します。
URLを指定してscraperを生成しscrapeメソッドの引数に成功時の処理を書いていきます。
変数questionにh1のテキストを入れて、変数answerにpのテキストを入れます。
jQueryオブジェクトがコールバックの引数として渡ってくるので、これよりも複雑な構造になっていたとしても普段jQueryを使ってる人にとっては割と簡単に情報が取得できると思います。

const scraperjs = require('scraperjs');
for (let i = 1; i  {
        let question = $('h1').text();
        let answer = $('p').text();
        let html = `<dt>${question}</dt>n<dd>${answer}</dd>n`;
        console.log(html);
    }).catch((error) => {
        console.error('Error:', error);
    });
}

ES6のテンプレートリテラルで生成するHTMLの雛形を作成します。今までテンプレートリテラルはあまり使ったことなかったのですが、改行コードなどもそのまま書けるし読みやすいのでいいですね。

let html = `<dt>${question}</dt>n<dd>${answer}</dd>n`;

そして生成したHTMLを出力します。

console.log(html);

出力先のHTMLファイルを作成し、ターミナルでscrape.jsを実行します。出力先を先ほど作ったHTMLファイルに指定します。

$ touch ./new.html
$ node scrape.js > new.html

実行結果

<!-- new.html -->
<dt>お名前は？</dt>
<dd>山崎です。</dd>

<dt>出身は？</dt>
<dd>静岡</dd>

<dt>血液型は？</dt>
<dd>A型</dd>

出力できました。あとは生成したHTMLをまるっとコピーしてdlの中に貼り付ければおしまいです。

まとめ

今回のケースの場合は、量が少なかったのでここまでやるぐらいだったら、コピペした方が早いと思いますが、量次第ではかなり時間がかかってきますし、確認作業や修正も大変だと思うので、こういう機会があったら、とても簡単なので試してみてください。

scraperjs公式Git-Hub

最後まで読んでいただいた方ありがとうございました。

Source: SEO

未分類SEO

【 WordPress】ユーザーIDを秘匿する方法

WordPress アクションフック after_switch_theme を使う

【 WordPress】ユーザーIDを秘匿する方法

こんにちは。koyaです。ちょっと前までスケボーにハマって毎日のように練習に行 ...

node.jsでスクレイピングしてみる

初めまして。4月入社の山崎です。これが初投稿になります。今回はnode.jsで ...

WordPress アクションフック after_switch_theme を使う

どうもfujiharaです。梅雨明けてあつすぎてPartyICEポリポリ食べてま ...

【Adobe XD】最近の主なアップデートを振り返る【2019年7月時点】

こんにちは。sitoです。最近のAdobe XDのアップデートを振り返ります。 ...

良く使ったな〜・・・と思うSassのmixin

Oculus Quest、やってます？自分はメチャメチャはまってます。おはこん ...

CrystalとKemalを触ってみる

こんにちわ。 kyamaです。また、急に暑くなりましたね。雨も多くて引きこもり ...

Advanced Custom Fieldsを使用した環境にCSVから投稿をインポートする方法（Really Simple CSV ImporterのACF対応）

みなさんごきげんよう。kではない方のyamashitaです。あっという間に夏が ...

CakePHPの開発環境をDockerで構築する

はじめまして。今年4月に入社したkyamashitaです。主にバックエンド担 ...

【WordPress】別階層のテンプレートを読み込む方法

こんにちは、koyaです。 Kourakuからダイレクトマーケティングを受けて先 ...

Chrome の loading="lazy" を試す

どうもfujiharaです。梅雨の時期がやってきましたね。皆さん梅雨の対策はし ...

今更ながら、モーダルを作ってみる

Oculus Questの予想を超えた性能の良さに感激しつつ、毎晩ライトセーバー ...

今更ながら、スクロール連動でフェードインさせてみる

Oculus Questを購入し、24日の到着を待ちわびている kouraku ...

React-Calendar が便利

どうもfujiharaです。先日人生2回目となる鳥の糞被弾を味わいました。ドラゴ ...

神奈川にWordPress Meetupがやってきた！

キャンプしたり、帰省したり、ダラダラしたりしてたらGWが終わってしまったyana ...

Dockerのコンテナ上で作成したファイルを別コンテナに共有する方法

みなさんごきげんよう。大型連休いかがお過ごしだったでしょうか。食べてネトフリ ...

参考にしたい！ローディングやオープニングアニメーションが素敵なサイトまとめ

こんにちは。sitoです。みなさま連休の予定ばっちり決まっているのでしょうか。 ...

【 WordPress】不要なブロックを非表示にするプラグイン「CoBlocks」

こんにちは、koyaです。最近はWordPressの勉強を主にしています。み ...

Sheets API を使ってGoogle スプレッドシートにデータを保存する

どうもfujiharaです。天候の上げ下げが激しい今日このごろですね。本日はSh ...

【MySQL】大量のデータを登録する際に処理時間を大幅に削減する方法

みなさんこんにちは。最近散歩にはまっているyamashitaです。あまりにも不 ...

【WordPress】WP_Queryでpagedとoffsetが一緒に使えないけど、どうにかする

4月になりましたが、なんか寒いですね。今年も花粉症で鼻がむずむずのyanagim ...

【Adobe XD】便利なプラグイン紹介

こんにちは。sitoです。みなさん、XDのプラグイン、使ってますか？最近どん ...

今更ながら、親ボタンの周りに子ボタンを扇状に表示させてみる

PSVR用『Beat Saber』が遂に発売されました！気分はジェダイで毎日ノリ ...

【WordPress】メディアアップロードのサイズ上限を変更する方法

みなさんこんにちは、花粉症を拗らせて体調を崩してるyamashitaです。今ま ...

プロトタイピングツール「figma」を使ってみた

こんにちは、koyaです。昨年から始めたスノーボードですが、今年の冬は毎週末ス ...

WordPress で Ajaxを利用する

どうもfujiharaです。今年度も残す所1ヶ月となりましたね。今回はWord ...

【WordPress】一部のブロックだけ使いたい、それ以外は非表示にしたいという時に使えるプラグイン「Block Manager」

せっかくだしGutenbergエディタを使いたい、でもブロックが多すぎるんだよな ...

Google Cloud Platform 入門編トレーニング東京会場に参加してきました

皆さんごきげんよう。見たい映画がいい感じの時間にやってなくてこのまま終わるのでは ...

今更ながら、格子状に並べたボックスをフェードイン・フェードアウトさせてみる

先日注文した冷凍イカが届いたので、これまでやったことがなかった下処理に挑戦中の ...

【WordPress】Gutenberg入門③ブロック：フォーマット

前回は一般ブロックについてでした。今回はフォーマットについて見ていきたいと思い ...

もうすぐバレンタイン！デザインの参考にしたい素敵なチョコレートのサイトまとめ

こんにちは。2019年に入ってからは初登場となりますsitoです。この間年が明 ...

macOSのアップデートに失敗した時の対処法

こんにちは。みなさんMacのアップデートは行いましたか？ Mojave、モジャ ...

CSVファイルを呼び出す前に文字コードを確認するようにする。

みなさんこんにちは私の担当したプロジェクトで必要な情報をエクセルからCSVファ ...

Create React App で SSR してみた。

どうも fujihara です。あけましておめでとうございます。今年もよろしくお ...

今更聞けない擬似要素、擬似クラスについて

新年明けましておめでとうございます。初めまして！昨年入社したデザイナーのkoy ...

【WordPress】Gutenberg入門②ブロック：一般ブロック

明けましておめでとうございます。年末年始に引きこもっていたら、寒さへの耐性がな ...

【CakePHP3.x】気付いたらソースコードが非推奨ばかりになってた話

みなさんこんにちは皆さま年末年始はいかがお過ごしでしたでしょうか？夜遅く家に ...

MySQL 8系で PHPから接続できない場合

どうもfujiharaです。今年も残りわずかですね。年々寒く感じる度合いが強く ...

【WordPress】Gutenberg入門①Gutenbergってどんなもの？

いきなり寒くなりましたね。年末年始まで風邪をひかずに頑張りたいyanagimac ...

インフラエンジニア向け学びとキャリア2018【参加してきました】

sagaraです。こんにちは。冬がそろそろ本気出してきましたね。 12/2(日) ...

【Adobe XD】自動アニメーションで、展開メニュー、スライドショー、カルーセルを作ってみた

こんにちは。sitoです。 11月20日（火）にパシフィコ横浜で開催されたAdo ...

Vue.jsでCSSスタイルガイド作成に挑戦！！残課題解決編２

近所のファミマで支払いを「ペイペイで」と言ったら「え！？」と2度聞された kou ...

おはようございます

白井市の介護事業所「にこにこケアステーション」

先日、白井市にある介護サービスの事業所「にこにこケアステーション」さんのホームペ ...

かまがやの花火大会

鎌ケ谷市では、毎年花火大会が行われています！ファイターズ鎌ケ谷スタジアムで執り ...

白井市の新聞販売所のHP制作

メイクパーソン株式会社白井市の読売新聞販売所『メイクパーソン株式会社』のホーム ...

手軽な定型文挿入プラグイン「Bottom of every post」

手軽な定型文挿入プラグイン「Bottom of every post」 HOTP ...

表の作成に便利なプラグイン「TablePress」

会社概要や価格表などホームページで表が必要となる場合が多々あると思います。しかし ...

WordPressヘッダー右上に連絡先を入れる方法

こんにちは。鎌ヶ谷市ホームページ制作のホットページズ鈴木です。Wordpress ...

バックアップのプラグイン

バックアップのプラグイン先日、HOTPAGESで「WordPressのバックア ...

HOTPAGESのメルマガ開始しました！

HOTPAGESのメルマガ開始しました！今日の投稿はHOTPAGESからのお ...

ホームページを作るなら有料？無料？

ホームページを作るなら有料？無料？先日、鎌ヶ谷市で行われた無料ホームページ制作 ...

WordPress レイアウト用プラグイン「 Elementor 」

簡単に WordPress をレイアウトできるプラグインHOTPAGESでは、毎 ...

今は必須！レスポンシブ化とは？

今は必須！レシポンシブ化とは？スマホ時代突入で進化するWeb レシポンシブ化 ...

座り仕事は腰痛にご用心

座り仕事は腰痛にご用心 HOTPAGESはご存知の通り、ホームページ制作会社 ...

WordPressのテーマって？

WordPressのテーマ活用をする WordPressのテーマって何？ワード ...

「発信力」こそ「集客力」！

「発信力」こそ「集客力」！「発信力」こそ「集客力」！今や、パソ ...

CMSを活用してホームページ制作を

CMSを活用するメリット HOTPAGESでは、 CMSを導入してホームページ ...

youtube が活用できる！ホームページ集客のSEO対策

今流行りのyoutubeがSEO対策へ動画を活用するSEO対策今、巷でyou ...

ホームページを作りたい

自分のパソコンで作ったものが世界中に公開されます！これこそが、ホームページを持 ...

WordPress 修正依頼（３月１１日）

HOTPAGESでは、ホームページ WordPress 修正依頼も承っています。 ...

SEO対策したらどれくらいで検索順位があがるの？

先日、HOTPAGESに「SEO対策について聞きたい」とご相談がありました。そ ...

WordPress修正依頼（３月６日）②

HOTPAGESでは、ホームページ WordPress修正依頼も承っています。 ...

HOTPAGESにWordPress修正依頼案件（3月6日）

HOTPAGESでは、ホームページ WordPress修正依頼も承っています ...

ワードプレスを使う、メリット、デメリット　その②　プラグインについて

今日はワードプレスの特徴でもある、プラグインの説明をしたいと思います。プラグイ ...

ワードプレスを使う、メリット、デメリット　その①

まず、ワードプレスとは何か？ここからお話をしたいと思います。ウィキペディアには ...

ホームページを作って困ったこと …

ホームページを作って困ったこと… ホームページを作るためのツールで人気のあるのが ...

３月２８日に鎌ケ谷市で無料ホームページ講座を開催！

３月２８日（水）は鎌ケ谷市内にあるHOTPAGESで無料ホームページ講座の日でし ...

ロリポップの簡単インストールで上書きしてしまった！そんな時は…！

「ロリポップのサーバーで、新しいWordPressのサイトを作ろうとしたら、メ ...

HOTPAGESお問合せ案件（３月２日）

HOTPAGESお問合せ案件がありました。 HOTPEIGESではWordPr ...

SEO対策とSNSの関係

SEO対策とSNSマーケティングの関係 SNSマーケティングとは？今やSNS時 ...

初めてホームぺージを作るなら

初めてホームぺージを作るときには必ずホームぺージのことを学びましょう。集客でき ...

ホームページを更新することでつながること

ホームページの更新することでつながることホームページは作成したことで完了ではあ ...

WEBサイトとランディングページの違いって？

WEBサイトとランディングページの違いって？先日、ありがたいことに２つの企業の ...

HTMLとは？

ホームページ制作に必須！HTMLとは？昨日のホームページ制作講座にて、HTML ...

鎌ケ谷市にて無料ホームページ制作講座を開催

ホームぺージ無料制作講座を開催しました！昨日、鎌ケ谷市にあるHOTOPEGES ...

集客できるホームページ制作とは？

集客できるホームページ制作とは？せっかくホームページを作るのですから、集客でき ...

ホームページの検索順位を上げる為のSEO対策って？

ホームページの検索順位を上げる為のSEO対策って？ SEO対策（Search E ...

ホームページの導入で考えられる効果

ホームページをお勧めする理由近年の消費者の動向を見てみると、買い物をする前にイ ...

ホームページで宣伝

事業の宣伝はホームページが有効だと知っていますか？ネット時代の今、ホームページ ...

ホームページ開設いたしました！

鎌ケ谷市内で低価格ホームページ制作のHOTPAGESをオープンいたしました！ ...