Rに付属の Data (Built-in Datasets) について説明してから、Public Data や、様々な Open Data について紹介します。Data は、調査主体や、調査対象者だけでなく、その Data が関係する「みんなのもの」という考え方も広がっています。共有財産を、有効に活用したいですね。
Data Science では、実際の Data の分析を行います。最初は、Data を探し、目的に合わせて利用できる形に整理する必要があります (英語では、Data Wrangling, Munging, Reshaping などと呼ばれます)。
自動的に生成されるインターネット上の Data など、Big Data と呼ばれるものを扱うときには、このプロセスが、もっとも手がかかる部分で、Data Engineering と呼ばれます。このことで、統計分析(Statistical Analysis)と言われる部分以外が膨らんで、Data Science が、統計分析の殻を破った、または、統計の占める部分が全体の中で小さくなったと言えるかもしません。(むろん重要度が低くなった訳ではありませんが。)反対に、多様な数理モデルや、機械学習、意思決定の科学 (Decision Making Science) として、社会的影響から、倫理面も重要になっています。
Data Science を学ぶには、ある程度整えられた Data からはじめるのが、良いでしょう。機械的に構成したり、手で入力することも、可能ですが、ここでは、学習用としても有用な、様々な分野の実際の Data からなる、R に付属する Data (Built-in Datasets) および、Package に付属している Data についてまず説明します。歴史的にも重要な統計学の理論を提示するために使われた Data も含まれています。
最近は、Data を、それを集めている主体(Institution や Agent)だけが利用するのではなく、公共(Public, みんな)のものとして活用すべきものとして、政府や公共機関、非営利団体だけでなく、企業でも公開が進んでいます。これも、Data Science が重要になってきた理由でもあります。そこで、Public Data、Open Data と呼ばれる、これらの Data や、その取得方法などを紹介します。
Rに付属する Data、Rの Package に付属している Data を活用しましょう。 Data 集めたものが Package となっているものもあります。
RStudio を立ち上げる(または、
Rを起動する)と同時に読み込まれる Data です。
R が Install されたときに、含まれ、初期設定では、起動するときに読み込まれる)Datasets は、R の Console または R Script などで、library(help = "datasets") とすると、リストを見ることができます。すでに利用した cars も含まれます。また、ggplot2 など他の Package を読み込んだあとで、data() とすると、Built-in Datasets に加えて、Packages などに含まれる、そのときに利用可能な Data のリストを確認することができます。R の version 4.0.0 の Built-in Datasets の情報は Statistical Data Analysis に掲載されています。cars と入力するか、Console または R Script で、? cars と入力すると、基本情報が得られ、?? cars と入力すると、cars という言葉が含まれる他の Package の Data の情報も表示されます。str(), class(), head(), tail(), summary() (括弧の中には、Data 名をいれます)などを使って、どのような Data かを見てみることをお薦めします。example(cars) などで実行できます。ただし、時間がかかると、注意がついていて、example() では実行できない場合もあります。? data と、head(data), example(data) の出力のリストです。それぞれの Package には、Data が含まれている場合が多く、また、Data を集めたものが Package となっている場合、教科書などの本の Data、MOOCs などで利用するための、Data からなる Package もあります。
ggplot2 を読み込むと、diamonds, economics, economics_long, faithfuld, luv_colours, midwest, mpg, msleep, presidential, seals, txhousing と、読み込まれます。MASS Package は、CRAN Package MASS にFunctions and datasets to support Venables and Ripley, “Modern Applied Statistics with S” (4th edition, 2002) とあるように、R の母体である、S の教科書に関係した Function(関数、コマンド)と、Data からなるものです。説明によく用いられています。UsingR や HistData Package は、データ集になっています。
library() などで読み込んだら、data() として、付属の Data を調べてみることも有効です。その、Package の活用例が得られることもあります。Public Data として様々な国際機関や、政府、大学や、研究所などがデータを公開しています。登録が必要な場合もありますが、基本的には、自由に、Download することができます。
データ取得のための、API (Application Program Interface) や、RPackage を提供している場合も多いので、調べてみましょう。
Open Data の定義は、機関によって異なりますが、世界的には、共有財産という概念が、近年強くなってきています。
Public Data と検索してみます。商用のサイト以外に、Google Public Data が見つかります。Google Public Data Explore では、いろいろと設定を変えて、グラフを表示させることができます。
日本語で検索すると、日本語サイトが現れ、世界銀行の世界開発指標へのリンクなど、いくつかのサイトのリストがあらわれます。つぎに、言語を英語に切り替えると、長いリストが現れます。検索言語によって、表示される Public Data が変わりますので、注意してください。
R では、Shiny を利用することで、作成することができます。いずれにしても、Public Data を用い、このような Dashboard から得られる情報は膨大です。ただ、常に Update されているわけではなく、細かい形式など、Google という私企業の方針に依存することになります。ある意味では Open で、Online ではありますが、Free かどうかは、難しいところです。UN Data Home または、下のリンクからデータを入手することができます。 UN Comprade のデータは、
Rの package comtradr を用いて、入手ができます。
World Development Indicators (WDI) は、世界銀行により編纂された、開発・生活水準に関する国際比較可能な統計をまとめた世界開発指標
Rの packageWPIまたはwbstatを用いて、データの入手ができます。
The Organisation for Economic Co-operation and Development (OECD) is an international organisation that works to build better policies for better lives. 第二次大戦後の 1948年4月、欧州16か国でOEEC(欧州経済協力機構)が発足。その後、欧州経済の復興に伴い1961年9月、OEEC加盟国に米国及びカナダが加わり新たにOECD(経済協力開発機構)が発足。日本は1964年に加盟。
Rの package OECD を用いて、データの入手ができます。
R の package OECD の vignette:例もついています。Eurostat(ユーロスタット)は、欧州連合(EU)の統計局(Statistical Office of the European Union)
Rの package eurostat を用いて、データの入手ができます。
日本の公式版、政府統計データは、e-Stat にまとめられており、Dashboard での表示および、ダウンロードも可能です。
公式にサポートをしているわけではありませんが、登録をすることで、R の package estatapi を使って、データの入手が可能です。詳細は e-Stat API 機能のページ を参照してください。
アメリカ合衆国が関係している、膨大なデータを提供しています。
Rの package censusapi および、tidycensus など、多数の API を使って、データの入手が可能です。
下に紹介していきます。
お勧めのサイトなどがあれば、お知らせください。
quantmod: Quantitative Financial Modelling & Trading Framework for RR package `quantmod: https://cran.r-project.org/web/packages/quantmod/quantmod.pdfquantmod R documentationquantmodFor comments, please send us an email to: freeopenonlinedatascience4all[at]gmail.com