支援対象地域:札幌、仙台、関東、愛知、関西、広島、福岡


Web スクレイピング(scraping)とは…

Web scrapingというのは、Webから自分が欲しいと思うデータを抽出し、Web上のデータをローカルデータベースまたはスプレッドシートに格納・分析可能な構造化データへ変換して、利用しやすく加工するというWeb技術です。
ただし、スクレイピングを禁止しているサイトでスクレイピングをしたり、過度にサイトにアクセスをすると法に反する場合もあります。
そのため、しっかりとスクレイピングを禁止していないWebかを確認し、自分が使っているサイトが過度なアクセスをするプログラムではないかを確認してから行うようにしましょう。

では、スクレイピング(scraping)について掘り下げて説明していきます。
IT分野では「何らかのデータ構造から余分な情報を削り取って抽出すること」を、スクレイピング(scraping)と呼ぶようになりました。
データスクレイピングとはプログラム間でやりとりされる内容のうち、人間が読むのに適さない内容から、余分な情報を取り除いて人間が読めるように必要な情報だけ抽出する場合に用いられるものです。簡単に書くと、不要な情報を削り取り、重要な情報だけを取得する技術ということです。
ちなみにこのデータスクレイピングのうち対象を、Web上の情報だけに絞ったものを「Webスクレイピング」と呼びます。

Webスクレイピングの用途は様々あります。例えばニュースポータルやブログ、ソーシャルメディア、財務報告などの分野で広く使われていますし、オンラインでの価格比較や気象データの監視、Webサイトの変更を検出したり、Webデータの統合などの目的で使用されています。

クローリング(crawling)とは…

スクレイピングとセットで利用されることが多く、切っても切り離せないクローリングについても少し紹介しておきたいと思います。

クローリング(crawling)とは、IT分野において「Web上をプログラムで巡回すること、もしくは巡回してなにかをすること」を意味します。クローリングは巡回という部分に重点が置かれている技術用語で、単に情報の抽出を意味するスクレイピング(scraping)とは違います。

クローリングの巡回の目的は多くの場合、情報収集のためであり、「クローリング = Web上を巡回&情報収集」として扱われることがほとんどです。クローリングが活用されている代表的な例にGoogleの検索エンジンがあります。

クローリングするプログラムのことを「クローラー」などと呼びます。
クローラー自体はプログラムで、インターネット上のWebサイトのホームページのHTMLに記載されているリンクの情報をたどって、そのページがの内容や構造を確認し、検索用データベースやインデックスを作成して、データベース化していく自動巡回プログラムです。

ただし、インターネット上においてクローラーはアクセスできる情報を出来る限り集めようとするため、検索したくない情報はクローラーが入れないように設定する必要があります。
逆に、Webサイトを新たに作成した場合などであればクローラーは見つけることが難しくなるので、作成した方から見つけしやすくしてあげる必要が出てきます。

また、クローラーはHTMLファイルなどの情報を読み込み、HTML以外のファイルも読み込み収集することが出来ますが、クローラーはプログラムなので、デザインや画像を情報として収集することは出来ません。
その為、伝えたい情報は画像化するのではなくテキストで作成しないと情報として集めることが出来ないということになるので気をつけましょう。

スクレイピングの良さと注意点

まず圧倒的な利点として、業務効率の改善が期待できます。
例えばWebサイトからの情報収集など、人間が行うと時間がかかったりミスをする可能性があるような作業の場合であっても、クローリングやスクレイピングを使うことで、業務を自動化できるので、膨大な時間をかけることがなくなり作業の効率化に繋がります。
またデータなどの情報収集においても、ヒューマンエラー(ミス)のリスクがなくなります。

次に注意点です。初めにも少しだけ書きましたが、クローリングやスクレイピングではWeb上の様々なサイトから情報を収集し抽出しているので、著作権法に触れる可能性があるということです。
Webサイトの中には情報を使われることを禁止しているサイトも存在しているので、たとえ知らずに情報を使ってしまったとしても訴えられる場合があります。 (身近なサイトだとTwitterもクローリングやスクレイピングは禁止されています。)
ちなみにクレイピングに向いている言語は「Ruby」「Python」です。

最後に…

再度になりますが、「クローリング、スクレイピングを禁止しているサイトもある」という事を頭に入れて今回の内容を利用するようにしましょう。
今回はスレイピングとクローリングについて簡単に説明しました。スクレイピングを使うためのソフトも様々ありますので、ご自身やご自身の企業に合ったものを使って上手に作業してください。