【簡単解説】クローラーやスクレイピングは違法なのか?

前回の記事では、Power Automateを使って、簡単なクローラーをつくってみました。汎用的に使える方法ですが、いろいろなサイトをクローリングする前に、知っておきたい問題があります。これは法的に大丈夫なの?という問題です。今回は、架空の2つのサイト(サイトA、サイトB)を対象に考えてみたいと思います。適法性については、著作権法及び利用規約との関係で考えていきます。尚、正式には、具体的なサイトをもって専門家に相談されることをおすすめします。

著作権法との関係での適法性について

著者名や論文のタイトル、公表年等の書誌的な情報その他単なる「事実」を収集・提供することは問題ないと考えます。ただし、要約文のような一定の分量からなる創作物の収集・提供は、著作権侵害と評価されるリスクがありそうです。

理由は以下のとおりです。

著作権法は、「著作物」に関して、著作権者に無断で複製、譲渡等の行為を行うことを禁止しています。著作権法による保護が及ぶ「著作物」とは、「思想又は感情を創作的に表現したもの」です。たとえば「事実」は、「表現したもの」ではないので著作物には該当しません。また、個性の発露のない表現は「創作的」なものではないので、やはり著作物には該当しないでしょう。

これを前提にサイトA、Bで収集可能な情報を検討すると、著者名や論文のタイトル、公表年等の書誌的な情報は、そもそも「表現」ではないか、仮に「表現」であるとしても「創作的」なものではないため「著作物」には該当しません。よって、これらの情報は、著作権法との関係では自由に利用できそうです。

一方、論文の要約文等、一定の分量がある文章については、記述者の個性が発露された表現といえ、「著作物」に該当する可能性が高くなります。よって、要約文等の一定の分量がある文章については、著作権者に無断で情報収集(複製)することができない可能性が高いと言えます。

利用規約との関係での適法性について

サイトAのケースでは、利用規約に違反する可能性が高いものの、一定条件を満たせば、違反を回避し得ると考えます。サイトAでは、ユーザによるコンテンツのダウンロードについて、「自己使用目的」で行われるものに限定しています。つまり、業者に委託する形でのコンテンツのダウンロードは、「自己使用目的」とは評価されない可能性が高くなります。よって、自社が自社のサーバーへコンテンツをダウンロードし、情報を収集・解析する場合には、規約違反を回避できる可能性があります。

一方サイトBのケースでは、ユーザがシステマティックな情報収集を可能にする自動化されたプログラムを使用することを禁止しています。したがって、業者へ委託する場合でも、自社が情報収集・解析を行う場合でも、利用規約に違反するものと評価される可能性が高いです。

まとめ

このように、クローリングあるいはスクレイピングする場合には、抽出する情報が「事実」なのか「創作的」なのかに注意すること、また、サイトの利用規約で、システマティックな情報収集が禁止されていないかに注意することが重要です。技術的には、どんな情報も瞬時に取れてしまうのですが。今回は、著作権法と利用規約の観点から考えてみましたが、繰り返しになりますが、コンプライアンス重視の観点から、具体的なサイトをもって専門家に相談されることをおすすめします。

弊社製品Quark Appsは、クローラー、RPA、テキスト分析、つながり解析、機械学習など、社内外のデータ活用に必要な機能がパックになっています。使い慣れたExcelから操作でき、クラウドを使わないため情報漏えいの心配もありません。全国からのお問い合わせをお待ちしております。