R に付属の Data (Built-in Datasets) について説明してから、Public Data や、様々な Open Data について紹介します。Data は、調査主体や、調査対象者だけでなく、その Data が関係する「みんなのもの」という考え方も広がっています。共有財産を、有効に活用したいですね。

Data Science では、実際の Data の分析を行います。最初は、Data を探し、目的に合わせて利用できる形に整理する必要があります (英語では、Data Wrangling, Munging, Reshaping などと呼ばれます)。

自動的に生成されるインターネット上の Data など、Big Data と呼ばれるものを扱うときには、このプロセスが、もっとも手がかかる部分で、Data Engineering と呼ばれます。このことで、統計分析(Statistical Analysis)と言われる部分以外が膨らんで、Data Science が、統計分析の殻を破った、または、統計の占める部分が全体の中で小さくなったと言えるかもしません。(むろん重要度が低くなった訳ではありませんが。)反対に、多様な数理モデルや、機械学習、意思決定の科学 (Decision Making Science) として、社会的影響から、倫理面も重要になっています。

Data Science を学ぶには、ある程度整えられた Data からはじめるのが、良いでしょう。機械的に構成したり、手で入力することも、可能ですが、ここでは、学習用としても有用な、様々な分野の実際の Data からなる、R に付属する Data (Built-in Datasets) および、Package に付属している Data についてまず説明します。歴史的にも重要な統計学の理論を提示するために使われた Data も含まれています。

最近は、Data を、それを集めている主体(Institution や Agent)だけが利用するのではなく、公共(Public, みんな)のものとして活用すべきものとして、政府や公共機関、非営利団体だけでなく、企業でも公開が進んでいます。これも、Data Science が重要になってきた理由でもあります。そこで、Public Data、Open Data と呼ばれる、これらの Data や、その取得方法などを紹介します。

Built-in Datasets and Data Attached to Packages

R に付属する Data、R の Package に付属している Data を活用しましょう。 Data 集めたものが Package となっているものもあります。

Built-in Datasets

RStudio を立ち上げる(または、R を起動する)と同時に読み込まれる Data です。

  • Built-in(R が Install されたときに、含まれ、初期設定では、起動するときに読み込まれる)Datasets は、R の Console または R Script などで、library(help = "datasets") とすると、リストを見ることができます。すでに利用した cars も含まれます。また、ggplot2 など他の Package を読み込んだあとで、data() とすると、Built-in Datasets に加えて、Packages などに含まれる、そのときに利用可能な Data のリストを確認することができます。
  • R の version 4.0.0 の Built-in Datasets の情報は Statistical Data Analysis に掲載されています。
  • RStudio の 右下の Pane の Help Tab で、たとえば、cars と入力するか、Console または R Script で、? cars と入力すると、基本情報が得られ、?? cars と入力すると、cars という言葉が含まれる他の Package の Data の情報も表示されます。
  • str(), class(), head(), tail(), summary() (括弧の中には、Data 名をいれます)などを使って、どのような Data かを見てみることをお薦めします。
  • Built-in Dataset には Examples がついているものが多く、たとえば example(cars) などで実行できます。ただし、時間がかかると、注意がついていて、example() では実行できない場合もあります。
  • Built-in Datasets with Explanations and Examples: ? data と、head(data), example(data) の出力のリストです。

Data Packages and Data Attached to Packages

それぞれの Package には、Data が含まれている場合が多く、また、Data を集めたものが Package となっている場合、教科書などの本の Data、MOOCs などで利用するための、Data からなる Package もあります。

  • Install し、library() で、読み込んだら、data() として、同時に読み込んだデータを調べてみるのもよいでしょう。Help で、Data の情報をしらべたり、Example が付いている場合もあります。
  • たとえば、ggplot2 を読み込むと、diamonds, economics, economics_long, faithfuld, luv_colours, midwest, mpg, msleep, presidential, seals, txhousing と、読み込まれます。
  • MASS Package は、CRAN Package MASS にFunctions and datasets to support Venables and Ripley, “Modern Applied Statistics with S” (4th edition, 2002) とあるように、R の母体である、S の教科書に関係した Function(関数、コマンド)と、Data からなるものです。説明によく用いられています。
  • UsingRHistData Package は、データ集になっています。
  • Package を Install し library() などで読み込んだら、data() として、付属の Data を調べてみることも有効です。その、Package の活用例が得られることもあります。

Public Data, Open Data

Public Data として様々な国際機関や、政府、大学や、研究所などがデータを公開しています。登録が必要な場合もありますが、基本的には、自由に、Download することができます。
データ取得のための、API (Application Program Interface) や、R Package を提供している場合も多いので、調べてみましょう。

Open Data の定義は、機関によって異なりますが、世界的には、共有財産という概念が、近年強くなってきています。

Google Public Data Explore

Public Data と検索してみます。商用のサイト以外に、Google Public Data が見つかります。Google Public Data Explore では、いろいろと設定を変えて、グラフを表示させることができます。

日本語で検索すると、日本語サイトが現れ、世界銀行の世界開発指標へのリンクなど、いくつかのサイトのリストがあらわれます。つぎに、言語を英語に切り替えると、長いリストが現れます。検索言語によって、表示される Public Data が変わりますので、注意してください。

  • 言語の切り替え方法が不明な場合は、下のリンクをクリックしてください。
    • Google Public Data
    • ブラウザー(IE, Safari, Crome, FireFox など)の一つの言語を英語に設定しておくことも一つです。
  • Google Public Data Site で、検索 Box に Japan と入れると、日本に関係した、Data が表示されます。
  • World Development Indicators(世界開発指標)を選択します。左の Indicator の Environment のところから、CO2 emission per capita (1人あたりの、二酸化炭素排出量)を探し、チェックします。グラフが現れます。左下は、World の Check Box にチェックされていると思いますが、左下の Check Box をすべて選択してみてください。グラフはどうなりますか。North America だけ、Check Box を外してみてください。どう変化しますか。ここから、どのような、ことがわかりますか。
  • CO2 emission については、他の指標もありますから、いろいろと試してみてください。また、上には、グラフの種類も選べるようになっており、対数での値に切り替えることもできるようになっています。
  • 膨大な種類の Public Data を、Google がこのように、グラフ表示できるようにしています。Web API (Application Programming Interface) と呼ばれるもので、特に、このような形式のものを、Dashboard(もともとの意味は「計器計」)と呼ばれます。R では、Shiny を利用することで、作成することができます。いずれにしても、Public Data を用い、このような Dashboard から得られる情報は膨大です。ただ、常に Update されているわけではなく、細かい形式など、Google という私企業の方針に依存することになります。ある意味では Open で、Online ではありますが、Free かどうかは、難しいところです。
  • Google では、表計算のための Google Spread Sheet や Python Notebook (Jupyter) が使える Colab の他にも、Trends, Datasets Search, Analytics などのサービスも提供しています。

United Nations’ UN Data(国際連合)

UN Data Home または、下のリンクからデータを入手することができます。   UN Comprade のデータは、R の package comtradr を用いて、入手ができます。

World Development Indicators(世界開発指標)

World Development Indicators (WDI) は、世界銀行により編纂された、開発・生活水準に関する国際比較可能な統計をまとめた世界開発指標
R の package WPI または wbstat を用いて、データの入手ができます。

OECD(経済協力開発機構)

The Organisation for Economic Co-operation and Development (OECD) is an international organisation that works to build better policies for better lives. 第二次大戦後の 1948年4月、欧州16か国でOEEC(欧州経済協力機構)が発足。その後、欧州経済の復興に伴い1961年9月、OEEC加盟国に米国及びカナダが加わり新たにOECD(経済協力開発機構)が発足。日本は1964年に加盟。
R の package OECD を用いて、データの入手ができます。

Eurostat 欧州連合統計データ

Eurostat(ユーロスタット)は、欧州連合(EU)の統計局(Statistical Office of the European Union)
R の package eurostat を用いて、データの入手ができます。

e-Stat 日本政府統計データ

日本の公式版、政府統計データは、e-Stat にまとめられており、Dashboard での表示および、ダウンロードも可能です。
公式にサポートをしているわけではありませんが、登録をすることで、R の package estatapi を使って、データの入手が可能です。詳細は e-Stat API 機能のページ を参照してください。

USA(アメリカ合衆国)

アメリカ合衆国が関係している、膨大なデータを提供しています。
R の package censusapi および、tidycensus など、多数の API を使って、データの入手が可能です。

UK(英連邦)

  • UK Government Data
  • About API: API を使うには、登録が必要なようです。いくつかのデータ毎に、API も別々に存在するようです。

PRC(中華人民共和国)

Other Open Data

下に紹介していきます。
お勧めのサイトなどがあれば、お知らせください。

Quantmod

IEEE Data Port

Our World in Data

  • Poverty, disease, hunger, climate change, war, existential risks, and inequality: The world faces many great and terrifying problems. It is these large problems that our work at Our World in Data focuses on.
  • Our World in Data HP

For comments, please send us an email to: freeopenonlinedatascience4all[at]gmail.com