朱りんふぁのブログ

【付論】法律・規約・慣習から見る、Boothとスクレイピング

(このページは法学の専門家ではなく、一般人によって書かれました。そのため、内容の絶対的な正しさを保証するものではありません。こちらを基にして何かをされる際は筆者は責任をとれませんので、自己責任の範疇で行ってください。)

 

(このページは2021年12月30日時点での話であり、以降の法改正・規約改正の話題を含みません。)

 

 

 

 

はじめに

現代の、同人創作物に対する社会の反応を、統計的に確認・解析するためには様々なサービスのデータを用いる必要がありますが、殊更にVRメタバース「VRChat」に関する3DCGモデルやUnity拡張アセット、プログラミングコードなどは、日本コミュニティにおいては筆者の知る限り創作物の総合マーケット「Booth」(以下、Booth)を通じて頒布されることが多く、その傾向等に関するデータは、可能ならばBoothから直接取得できるのが好ましいと思われます。

 

しかし、一方で、残念ながらBoothのページからスクレイピングを行い情報を取得する試みは従前から存在しました*1が、その適法性や規約解釈等について述べられる機会は、この付論の本論であるどんな要素がVRChat向け作品の人気に関係していそうか、統計解析してみた! ~VRChatと経済学②~」(以下、本論)を企画・解析した段階*2では筆者の知る限り存在せず、また、この文章の執筆に至るまでにネット上で一部議論*3があったものの、未だ詳細に述べられた文章は無いと思われます。

 

そのため、当付論では、自らがBoothよりスクレイピングを行うにあたり、法律・規約・慣習の面から一般人として可能な範囲で*4調査を行い、達した結論について、特に重要であるという観点より、敢えて本論とページを分けて著述することとしました。

 

結論としては、Boothよりのスクレイピングは、本論が目的とした「①情報の解析が目的であり、②得た情報をそのまま公開せず、③サーバーに過度の負荷をかけない場合、④ほとんどのページと⑤一部を除く内容」に関しては、法律・規約・慣習上の問題なく行えるのではないかという結論に達しました。

 

以下、詳細に追ってゆきます。

 

 

第1章 法律上の問題

ここでは、主に情報の取得等を行った後、著作権法上利用が許される範囲において確認します。

 

第1節 著作権法

著作権法においては従来、情報解析のための複製等(旧第47条の7)にスクレイピング等に関する規定が存在しましたが、近年著作権法が改正されたことにより改めて、条件を満たす限りスクレイピング著作権法の対象の例外であることが改めて示されました。

 

(電子計算機による情報処理及びその結果の提供に付随する軽微利用等)

第四十七条の五 

電子計算機を用いた情報処理により新たな知見又は情報を創出することによつて著作物の利用の促進に資する次の各号に掲げる行為を行う者(当該行為の一部を行う者を含み、当該行為を政令で定める基準に従つて行う者に限る。)は、公衆への提供等(公衆への提供又は提示をいい、送信可能化を含む。以下同じ。)が行われた著作物(以下この条及び次条第二項第二号において「公衆提供等著作物」という。)(公表された著作物又は送信可能化された著作物に限る。)について、当該各号に掲げる行為の目的上必要と認められる限度において、当該行為に付随して、いずれの方法によるかを問わず、利用(当該公衆提供等著作物のうちその利用に供される部分の占める割合、その利用に供される部分の量、その利用に供される際の表示の精度その他の要素に照らし軽微なものに限る。以下この条において「軽微利用」という。)を行うことができる。ただし、当該公衆提供等著作物に係る公衆への提供等が著作権を侵害するものであること(国外で行われた公衆への提供等にあつては、国内で行われたとしたならば著作権の侵害となるべきものであること)を知りながら当該軽微利用を行う場合その他当該公衆提供等著作物の種類及び用途並びに当該軽微利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。


一 電子計算機を用いて、検索により求める情報(以下この号において「検索情報」という。)が記録された著作物の題号又は著作者名、送信可能化された検索情報に係る送信元識別符号(自動公衆送信の送信元を識別するための文字、番号、記号その他の符号をいう。第百十三条第二項及び第四項において同じ。)その他の検索情報の特定又は所在に関する情報を検索し、及びその結果を提供すること。


二 電子計算機による情報解析を行い、及びその結果を提供すること


三 前二号に掲げるもののほか、電子計算機による情報処理により、新たな知見又は情報を創出し、及びその結果を提供する行為であつて、国民生活の利便性の向上に寄与するものとして政令で定めるもの


2 前項各号に掲げる行為の準備を行う者(当該行為の準備のための情報の収集、整理及び提供を政令で定める基準に従つて行う者に限る。)は、公衆提供等著作物について、同項の規定による軽微利用の準備のために必要と認められる限度において、複製若しくは公衆送信(自動公衆送信の場合にあつては、送信可能化を含む。以下この項及び次条第二項第二号において同じ。)を行い、又はその複製物による頒布を行うことができる。ただし、当該公衆提供等著作物の種類及び用途並びに当該複製又は頒布の部数及び当該複製、公衆送信又は頒布の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

著作権法 | e-Gov法令検索より。2021年12月30日閲覧。太字は筆者強調。)

 

(参考:改正前)

情報解析のための複製等(第47条の7)

 

コンピュータ等を用いて情報解析(※)を行うことを目的とする場合には,必要と認められる限度において記録媒体に著作物を複製・翻案することができる。

ただし,情報解析用に広く提供されているデータベースの著作物については,この制限規定は適用されない。

※情報解析とは,大量の情報から言語,音,映像等を抽出し,比較,分類等の統計的な解析を行うことをいう。

 

著作物が自由に使える場合 | 文化庁より。2021年12月30日閲覧。一部太字は、強調のため著者が行った。)

 

つまり、統計的な解析を行う場合は、基本的には自身のPCなどに情報を保存してよいことになります。

また、改正により、共同作業のためのデータのやり取り等が明確に合法化されたとされます*5

 

そもそも、私的利用や公的教育機関での教育目的での複製に関しては、条件はあるものの原則として著作権法の保護の対象外であることが有名ですが、スクレイピングに関しても、改めて明記されたと言えます。

 

また、その情報公開や、「必要と認められる限度」に関しては、文化庁による解釈は以下のとおりであると思われます。

 

[3]電子計算機による情報処理及びその結果の提供に付随する軽微利用等(第47条の5関係)

 

電子計算機を用いて,情報を検索し又は情報解析を行い,及びその結果を提供する者は,公表された著作物又は送信可能化された著作物について,その行為の目的上必要と認められる限度において,当該行為に付随して,軽微な利用を行うこと等ができることとすることを規定しています。

 

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁より。2021年12月30日閲覧。一部太字は、強調のため著者が行った。)

 

以上のように、統計解析を行うのに必要な部分に限れば、スクレイピングをして、その結果を提供しても大丈夫と言う解釈が成り立ちます。

 

一方で、取得した情報をそのまま公開することは、残念ながら特に認められていないということになります。

 

以下のような場合には、違法となる可能性があるので注意が必要です。

1. 取得情報を複製した物の譲渡
2. 目的外利用

 

スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | topcourtより。2021年12月30日閲覧。)

 

あくまで、保証されているのは統計的な解析を目的とした取得と、事実に過ぎない統計的な解析結果の公開のみです。

 

著作権法は創作を保護する為の法律で、事実(ex.〇〇が△△個あった)は保護の対象にならない。

Webスクレイピングの注意事項一覧 - Qiitaより。2021年12月30日閲覧。)

 

[1]著作物に表現された思想又は感情の享受を目的としない利用(第30条の4関係)

 

著作物は,技術の開発等のための試験の用に供する場合,情報解析の用に供する場合,人の知覚による認識を伴うことなく電子計算機による情報処理の過程における利用等に供する場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,利用することができることを規定しています。

これにより,例えば人工知能(AI)の開発のための学習用データとして著作物をデータベースに記録する行為等,広く著作物に表現された思想又は感情の享受を目的としない行為等を権利者の許諾なく行えることとなるものと考えられます。

 

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁より。2021年12月30日閲覧。一部太字は、強調のため著者が行った。)

 

なので、例えば検索サービスを提供する場合などは、前述の第45条1項を適用することになります。(改正前は47条の6が根拠でした)

 

(参考:改正前)

送信可能化された情報の送信元識別符号の検索等のための複製等(第47条の6)

 

インターネット情報の検索サービスを業として行う者(一定の方法で情報検索サービス事業者による収集を禁止する措置がとられた情報の収集を行わないことなど、政令(施行令第7条の5)で定める基準を満たす者に限る。)は、違法に送信可能化されていた著作物であることを知ったときはそれを用いないこと等の条件の下で、サービスを提供するために必要と認められる限度で、著作物の複製・翻案・自動公衆送信を行うことができる。

 

著作物が自由に使える場合 | 文化庁より。2021年12月30日閲覧。)

 

残念ながら当付論の目的においてはこちらは対象外であるので詳しくは述べませんが、こちらに関しても、条文上で違法ダウンロードをしてはいけないことや、一定の基準を満たしていることなどが条件づけられているのには、注意が必要です。

 

この辺に関しては、上記で疑問や不足を感じられる場合は、

  1. Webスクレイピングの注意事項一覧 - Qiita
  2. 改正著作権法が日本のAI開発を加速するワケ 弁護士が解説:「STORIA法律事務所」ブログ - ITmedia NEWS
  3. 第1章 スクレイピングの注意点 - Scrapy Note

も詳しいので、ご一読いただくと良いかもしれません。

 

第2節 動産不法侵入罪

住宅とかへの不法侵入が不動産に対する物なら、サーバーとかに対する侵入もあるよねって話です。

 

残念ながら、法律家による解説はこちらに関してはパッと見当たらなかったのですが、ふたつほどのサイトでは、同様の説明がなされています。

 

サーバへのアクセスで抵触しかねない基準と対策

  • 同意の欠如 -> Webページが提示する条項を守ろう
  • 実害 -> サーバへの負荷等を考えよう
  • 意図性 -> プログラムを書いたなら意図がある

PythonでWebスクレイピングする時の知見をまとめておく - Stimulatorより。

2021年12月30日閲覧。)

 

また、第1章 スクレイピングの注意点 - Scrapy Noteにおいても、「同意の欠如」「実害の発生」「意図的な行為」が挙げられています。

 

つまり、それぞれ

  1. Webサイトで禁じられている時は同意が欠如しているので違法
  2. 過剰なアクセス等により実害が発生したら違法
  3. プログラムを書いた以上は、知らなかったでは済まない可能性

ということだと思います。

 

以上に関しての法律的な詳細は上記のサイトをご覧いただくことになりますが、これを踏まえて言えることは

  1. Webサイトの利用規約などをしっかり確認しよう
  2. 必ずシステムを休止させるプログラムを入れよう
  3. プログラムはしっかり見直そう

ということで、後のBoothの規約の章や、技術的な慣習のところにつながってゆきます。

 

まとめ
  1. 統計的な解析のために必要な部分をスクレイピングしたりするのはOK

  2. ただし、結果は公開してもいいけど、取得した原データは公開してはいけない

  3. 検索サービスに関しては上記と別の条項に従う

  4. スクレイピングの際は、Webサイトの利用規約などを確認しよう

  5. プログラムを組む際は休止などに気をつけよう

 

 

第2章 Boothの規約を確認する

第1章では法律に関して見てきましたが、その結果、利用規約が非常に重要だということが分かりました。

しかし、それでは今までなぜこの辺の話があまり出て来なかったのでしょうか。

 

もちろん需要が少ないという問題もあるとは思うのですが、個人的にはピクシブ株式会社(以下、ピクシブ社)におけるサービスの利用規約ガイドラインが複数にわたって存在しており、その詳細をきちんと考えるには広範な範囲を確認する必要が生じることが原因だと思っています。

 

そのため、以下においては、筆者が確認できた限りで利用規約を確認してゆきます。

 

第1節 サービス共通利用規約

 

問題となるのは、以下の主に以下の節です。

 

第14条 禁止行為

ユーザーは、本サービスの利用にあたり、以下の各号に該当する事項を行ってはならないものとします。


1. 当社もしくは第三者著作権意匠権等の知的財産権(第21条第1項に定義します。)、その他の権利を侵害する行為、または侵害するおそれのある行為


2. 本サービスおよび個別サービスに投稿等されている投稿情報を、当該著作者(創作者)の同意なくして転載する行為


3. 本サービスもしくは本サービスの一部(コンテンツ・情報・機能・システム・プログラム等)を使用・転用・転売・複製・送信・翻訳・翻案・改変などして、いかなる手法を問わず商業・営業目的の活動、営利を目的とした利用およびその準備を目的とした利用をすること、その他本サービスの2次利用や複製行為。但し、ユーザー本人による投稿情報は除きます。

(中略)

19. 通常の範囲を超えて本サービスのサーバーに負担をかける行為、もしくは、本サービスの運営やネットワーク・システムに支障を与える行為またはこれらのおそれのある行為

(中略)

22. 日本国内外の法令、公序良俗、本規約または個別規約等に違反し、または他者の権利を侵害すると当社が判断する行為

 

ピクシブ社 サービス共通利用規約より引用。2021年12月30日閲覧。太字は筆者協調。)

 

このうち、第1項と第22項は基本的に「法律と規約に反するなよ」と言ってるだけなので、おそらく特に重要なのは第2項と第19項です。

 

第2項においては、著作権法で認められていたとしても、投稿情報そのままを著作者の許諾無しに転載*6することが禁じられています

 

この場合、利用者は法律だけでなく「サービスの利用規約」という形で契約に縛られることとなりますが、基本的に契約自由の原則から、契約が適法性などを満たす場合は契約の方が法律より優先されます*7

 

つまり、この文章の目的でないためこれ以上言及はしませんが、検索サービスの運用等に関してスクレイピングする場合は、この条項に抵触しないのかどうか、妥当性があると社会的に認められる合理的な理由を持ったうえで、慎重に行った方が良さそうです。

 

また、第3項に関しても、やり方によっては十分に注意する必要があります。

営利目的である場合は禁止されているので、スクレイピングした内容を用いてアフィリエイト等で何か行うのは、厳しいと言えるでしょう。

 

そして、最後に第19項。

端的に言えば「サーバーに負荷かけんな」と言われています。

 

通常の負荷がどのくらいかというのがそもそも難しいわけですが、そもそも第1章でみたように、サーバーに負荷をかけてはいけないという話は別に存在し、一般的にはスクレイピングの際は、Librahack事件における不起訴の事例を引いて、1秒1回程度なら妥当と言われています。

 

ただ、Librahack事件は一つの目安になると思われます。この事件では、逮捕された者が1秒に1回の頻度で1日2000回のスクレイピングを試みた点について、サーバに負荷をかけたとまではいえないとの見方もあります。

 

スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | topcourtより。2021年12月30日閲覧。)

 

ただ、同文中にもある通り、これは当時の専門家の意見や不起訴処分による結果を受けて言われている慣習的な面を持ち、懐疑的な見方も存在します。

 

この判断は、まだ合法とのお墨付きを与えるものではありませんが、仮にスクレイピングをするとしても「自然検索の範囲内」で対応するのがベターかもしれません。

 

スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | topcourtより。2021年12月30日閲覧。)

 

 

PythonでWebスクレイピングする時の知見をまとめておく - Stimulatorより。

2021年12月30日閲覧。)

 

サービスの提供機能を過度なリクエストで制限した場合や、物理的に故障させるためにDDOS攻撃などを行えば実害が発生しますので、そのような場合は違法性を問われることになります。ちなみに、リクエストの間隔は1秒あければよい、という話も聞きますが、1秒には何の正当性も無いようです。

 

第1章 スクレイピングの注意点 - Scrapy Noteより。2021年12月30日閲覧。)

 

また、以下の規約で見てゆくように、他の規約だと「極端な負荷をかけるな」程度に収まっていることもあって、恐らくそちらが優先されるので、どのあたりに抑えるべきかは難しい側面がありますが、とりあえずなるべく通常に近いと考える程度にしておいた方が安全なような気もします

 

第2節 登録情報のガイドライン

このガイドラインは、少し解釈が難しいです。

 

冒頭に

 

ガイドラインは、pixiv商標の適切かつ合法的な使用に関するご質問にお答えするため

ピクシブ社 登録商標のガイドラインより引用。2021年12月30日閲覧。太字は筆者強調。)

 

と書いてあり、ピクシブ社のサービス全般に関するものではなく、あくまでサービスの1つであるpixivに限られて書かれているように一見読めるのですが、よく読むと、サービス共通利用規約の冒頭第2条の4項に

 

第1条 はじめに


この「ピクシブ株式会社 サービス共通利用規約(以下「本規約」または個別規約と区別するために「共通規約」といいます。)」は、ピクシブ株式会社(以下「当社」といいます)が提供する各サービス(以下各サービスの総称として「本サービス」といい、個別のサービスを指す場合は「個別サービス」といいます。)を、ユーザーが利用する場合の一切の行為に適用されます。ユーザーは、本規約に同意の上、本規約に従い本サービスを利用するものとします。

(中略)

第2条 個別規約等

  1. 個別サービスに関する個別規約等の有無および個別規約等の適用の有無は、表1のとおりです。
  2. 個別規約等と本規約の定めが矛盾する場合は、別段の定めのない限り、個別規約等の定めが本規約の定めに優先します。
  3. 個別規約と対応するガイドラインの定めが矛盾する場合は、別段の定めのない限り、ガイドラインの定めが個別規約の定めに優先します。
  4. ガイドラインのうち、「登録商標の利用ガイドライン」はすべてのユーザーに適用されます。また、ガイドラインについては表1に記載する以外に個別サービス毎に定める場合があり、個別サービスに紐づくガイドラインが優先的に適用されます。

 

ピクシブ社 サービス共通利用規約より引用。2021年12月30日閲覧。太字は筆者協調。)

 

と書いてあるので、第1表に載っていないものの、すべてに適用されるそうです。

 

また、この第2条第2項と第3項こそが、先のサーバー負荷に関して「通常」より「極端な負荷をかけない」ことが優先されるのではないかという解釈の元になります。

 

重要なのは、以下の部分です。

 

pixivの利用をより便利にするアプリケーションやサービスについて、開発を行われる方は以下の内容をお守りください。

(中略)
4. クローラーなどのプログラムを使って作品を収集する行為、サーバに極端な負荷をかける行為は禁止します。また、それらに違反しない場合でも、当社はその停止を要求する場合がございます。

 

ピクシブ社 登録商標のガイドラインより引用。2021年12月30日閲覧。太字は筆者協調。)

 

このように、スクレイピングクローラー)により「作品を収拾する行為」と、「サーバーに極端な負荷をかける行為」が禁止されています。

 

これを見ると「ではスクレイピング自体が難しいのか」となるのですが、実はこれには2点ポイントがあります。

  1. そもそもガイドラインが優先されること
  2. 「作品」「商品」と「情報」は、恐らく違うということ

 

まず、1つ目の方なのですが、上記の引用を見ていただければわかる通り、基本的には一番優先されるのはBoothのガイドラインになります。

なので、ここに関しては、後で見るBoothのガイドラインの方が重要と言えます。

 

ただ、これに関してはあまり違うことは書いてないので、比較するとそんなに重要ではありません。

 

より重要なのは2つ目の方で、他のBoothに適用されない規約に

 

3 禁止行為・配信禁止内容


以下に該当する行為や内容の配信は禁止事項としています。禁止事項に該当すると判断された場合、配信の強制停止やpixivアカウントの停止・削除を行うことがあります。

(中略)

7. その他禁止事項

 1. クローラーなどのプログラムを使って情報を収集する行為

 

pixiv Sketch LIVE 個別規約とガイドラインより。2021年12月30日閲覧。太字は筆者強調。)

 

というように、規約自体で情報収集を禁じる場合、「情報」とはっきりと明記されています

 

また、この点に関しては、後で見るrobots.txtなどにおいても、pixivでは作品収集につながるページへのアクセスが禁止され、Boothではカートへのアクセス等が禁じられている一方で、普通のページへのアクセスは禁じられていないことから、整合性があると考えられます。

 

そのため、恐らくこの条項が問題になることは無いと思われます。

 

第3節 Booth個別規約

ここに関しては、禁止行為に実はクローラーや過剰アクセス等の記述が、以下のようにありません。

そのため、ガイドラインを見ることの方が重要であると考えられますが、念のために言及しておくことにしました。

 

第7条 禁止行為


ユーザーは、本個別サービスの利用にあたり、共通規約第14条各項に定める事項に加えて、以下の各号に該当する事項を行ってはならないものとします。ユーザーが以下に該当する行為を行った場合、その故意・過失の有無を問わず、当社は、禁止行為を行ったユーザーに対し、強制退会、利用停止、ショップに関するデータの全部もしくは一部の削除、または公開範囲の変更等の不利益な措置をとることがあります。

  1. 当社もしくは第三者の商標、ドメイン等と同一ないし類似のもの、第三者と混同を生じる危険のあるサブドメインの登録
  2. ショップオーナーが創作に関与していない商品を登録・販売する行為
  3. 本個別サービスを介さずに行う直接取引やそれを勧誘する行為、または、勧誘に応じる行為
  4. 本個別サービスでの商品掲載において、掲載内容と明らかに異なる商品を送付する行為
  5. 取引成立後の合理的な理由が無い商品発送を行わない等の行為
  6. 当社からの、またはユーザー間取引を行っている他のユーザーからの連絡に対する不当な応答の遅延や無視を行う行為
  7. ユーザーが前項各号に違反し、当社、他のユーザーまたは他者に対して損害を与えた場合、故意過失を問わず、ユーザーは自己の責任と費用をもって損害を賠償するものとします。

 

第4節 Boothガイドライン

さて、ここまでで「一番優先されるのはガイドラインだ!」と頻繁に言及してきましたが、実はガイドラインに書かれている禁止行為はシンプルそのものです。

 

禁止行為

ユーザーは、BOOTHを利用するにあたり、以下のいずれかに該当する行為、または該当すると当社が判断する行為をしてはなりません。

  1. 販売禁止商品を大量・連続投稿する行為
  2. 中傷・脅迫・経済的もしくは精神的に損害や不利益を与えるタグ付けやコメント等の行為
  3. クローラーなどのプログラムを使って商品を収集する行為
  4. サーバに極端な負荷をかける行為

 

解釈としては上記で述べてきたことのまとめになります。

 

禁止されるのは

  1. 例えば楽をしようとして、スクレイピングで商品を収拾したりしようとする行為
  2. サーバーに極端に負荷をかける行為

であり、それぞれ、商品と情報は区別されている可能性が高いという話と、サーバーへの負荷は矛盾より極端な負荷の禁止が適用される可能性が高い、という結論に落ち着きます。

 

そもそも、サーバーからダウンロードを行う行為自体がWebページの読み込みなどより基本的に負荷が重いことや、有償商品の場合、商品の精算の問題があるため、恐らくこうなっているのではないかと個人的には思います。

 

まとめ

長くなりましたが、まとめると

  1. Boothの「商品」はスクレイピングしてはいけないが、規約上で「情報」と「商品」は、明確に区別されている。

  2. サーバーへの負荷は複数の条項で禁止されているが、恐らく適用されるのはガイドラインの「極端な負荷をかける行為」の禁止。
    ただ、個人的には1秒に1回より低くした方が安全だと思う。

  3. 禁止行為に該当しなくても、Boothに停止を要求される可能性がある。

  4. 営利目的で得た情報を活用してはいけない。

  5. 載っている投稿情報を、著作権者の許可なくそのまま転載してはいけない。

 

第3章 慣習を確認する

さて、ここまでは法律やBoothの規約等を確認してきましたが、スクレイピングを行う際には、もう少し技術的に禁止されていないかのチェックが必要です。

 

robots.txt

動産不法侵入のところでも多分お話ししましたが、大体のサイトにおいては、robots.txtという文章を使って、スクレイピングへの禁止事項等が書いてあります。

 

robots.txtとは、スクレイピングを行うプログラムに対しての指示が書いてある文書である。

robots.txtは慣習的にはURLの直下に置かれるが、これは別に義務ではないので、そもそも配置されていないケースもある。

 

Pythonでスクレイピングのルール(robots.txt)をチェックするツールを作る - Qiitaより。2021年12月30日閲覧。太字は筆者強調。)

 

Boothにおいては以下のようになっています。

 

# See https://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file

User-agent: *
Disallow: /terms
Disallow: /carts
Disallow: /cart

 

https://booth.pm/robots.txtより。2021年12月30日閲覧。)

 

詳しい中身の読み方等は第1章 スクレイピングの注意点 - Scrapy Noteでも見ていただくとして、スクレイピング

  1. 利用規約
  2. カート

に対して禁止されていることが分かります。

 

これは、先のガイドラインの内容とも合致します。

 

また、参考までにpixivの物も載せておくと、

 

User-agent: *
Disallow: /rpc/index.php?mode=profile_module_illusts&user_id=*&illust_id=*
Disallow: /ajax/illust/*/recommend/init
Disallow: *return_to*
Disallow: /?return_to=
Disallow: /login.php?return_to=
Disallow: /index.php?return_to=

Disallow: /artworks/unlisted/*

Disallow: /tags/* * *
Disallow: /tags/*%20*%20*

Disallow: /users/*/followers
Disallow: /users/*/mypixiv
Disallow: /users/*/bookmarks
Disallow: /novel/comments.php?id=
Disallow: /novels/unlisted/*

(中略)

Disallow: /fanbox/search
Disallow: /fanbox/tag

 

https://www.pixiv.net/robots.txtより。2021年12月30日閲覧。)

 

となっています。

 

pixivにおいては、作品の収集やその他の様々な情報の収集を避けるために、沢山の禁止事項が設定されていますが、Boothにおいては無いことが分かります。

 

以上より、Boothに関しては、robots.txtに関しては既存の事実の確認にとどまりました。

 

その他

その他だと、htmlの冒頭に様々な定義を行うメタタグで、クローラーに対し個別の禁止事項が書いてあることがあります。

 

Boothの場合は、少なくとも私が本論でスクレイピングを試みたページに関しては、こちらはありませんでしたが、要確認だと思われます。

 

また、リンクごとにnofollowタグが付いていることもあり、そちらにも気を付ける必要があります。

 

こちらに関しては、残念ながら引っかかってしまったことで、収拾できない情報*8がありました。必ずチェックした方が安全だと思われます。

 

一応、本来の定義的には先ほどまでの条項ほど厳しくないかもしれませんが、同意の欠如に引っかかる可能性があります。

 

robot.txtに比べスクレイピング、クローリングに対する拘束範囲は小さいが、rel="nofollow"されたリンクはWebサイト作者の意図しないリンクである可能性が高いため、処理しておくと良い。

 

Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulatorより。2021年12月30日閲覧。)

 

また、他にもUser-Agentの偽装を行うべきでは無いというものがあります。

 

これは、主にUser-Agentの偽装自体が元々Webページの運用側がページのテストを行うために開発された機能であって、スクレイピングを行う個人が自身がWebページに対してプログラムであることを隠すために開発された機能では無いからです。

 

また、もしも万が一プログラム等に問題があって、Webページ側がアクセスを差し止めたいときに、差し止めのために使われる情報となるそうです。

 

このほかにも細かい点はありますが、上記に関する詳細なども含め、その辺りは

  1. Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulator
  2. 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita

などで確認されることをオススメします。

 

 

結論

以上より、当付論においては

  1. 情報の解析が目的であり(著作権法・Boothガイドライン
  2. 得た情報をそのまま公開せず(著作権法ピクシブ社サービス共通利用規約
  3. サーバーに過度の負荷をかけない場合(動産不法侵入・Boothガイドライン
  4. ほとんどのページと一部を除く内容の情報で(Boothガイドライン・動産不法侵入・robots.txt・メタタグ・nofollow
  5. 営利目的での利用では無く(ピクシブ社サービス共通利用規約
  6. Booth側に停止を要求されず(ピクシブ登録商標ガイドライン
  7. 慣習上のマナーを守る限り(User-Agent偽装など、その他)

に関しては、法律・規約・慣習上の問題なくBoothのスクレイピングを行えるのではないかという結論に達しました。

 

 

参考文献

Webサイト

特に言及が無い場合、最終閲覧は2021年12月30日。

 

著作権法 | e-Gov法令検索

著作物が自由に使える場合 | 文化庁

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁

改正著作権法が日本のAI開発を加速するワケ 弁護士が解説:「STORIA法律事務所」ブログ(1/7 ページ) - ITmedia NEWS

スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | TOPCOURT LAW FIRM

 

サービス利用規約 | ピクシブ株式会社

ガイドライン - BOOTH

https://www.pixiv.net/robots.txt

https://booth.pm/robots.txt

 

第1章 スクレイピングの注意点 - Scrapy Note

【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita

Pythonでスクレイピングのルール(robots.txt)をチェックするツールを作る - Qiita

Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulator

PythonでWebスクレイピングする時の知見をまとめておく - Stimulator 

robots メタタグの指定 | Google 検索セントラル  |  Google Developers

SEO 用に外部リンクの関係性を伝える | Google 検索セントラル  |  Google Developers

 

「転載」と「引用」の違いとは?広報担当者が知っておきたい「転載」ルール | PR TIMES MAGAZINE

BOOTHのサムネをスクレイピングしてOpenCVで顔検出したら精度がよすぎてビビった - Qiita

運用方針・運用理念等の明文化をして欲しい。 · Issue #1 · hibit-at/avatar_network · GitHub

 

書籍

反町勝男(2010)「わかる! 楽しい! 法律」, 東京リーガルマインド

 

 

 

*1:BOOTHのサムネをスクレイピングしてOpenCVで顔検出したら精度がよすぎてビビった - Qiitaなど。

*2:2021年10月末

*3:運用方針・運用理念等の明文化をして欲しい。 · Issue #1 · hibit-at/avatar_network · GitHubなど。

*4:改めて述べるが専門家ではないので、そちらから意見があるようならそちらを尊重すべき

*5:スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | TOPCOURT LAW FIRMより。

*6:転載とは、一般にそのまま著作物を持ってくることを指す。詳しくは、「転載」と「引用」の違いとは?広報担当者が知っておきたい「転載」ルール | PR TIMES MAGAZINE

*7:この点に関しては、反町勝男(2010)「わかる! 楽しい! 法律」を読んだ

*8:作者の知名度の指標として、Twitterのフォロワー数を調査するためにアカウントを収拾したかったが、nofollowタグが付いていた