Free Open Online Learning Resources を MOOCs (Massive Open Online Courses) と、R Markdown の一つの形式の、Bookdown による、Free Online Books を 中心に紹介します。これらのすばらしい Resource を活用することが、英語での学びを推薦する理由の一つでもあります。

MOOCs (Massive Open Online Courses)

コースとして、Open Online で学ぶことができます。世界のトップレベルの大学の、トップレベルのコースを受講できます。

MOOCs について

Open Education の分野では、最初の MOOC は、2008年に、Dave Cormier によって始められた Connectivism and Connective Knowledge (CCK08) だとされています。もう一つの流れとして、2003年に Massachusetts Institute of Technology (MIT) で公式(非公式版は2002年)に大学の実際の授業を公開した Open Courseware(OCW)があり、United States などの、多くの大学で、OCW がスタートしました。日本でも、JOCW が組織され、いくつかの大学で授業の公開がされました。最初は、Open Educational Resources (OER 教育コンテンツの公開) で、Open Education(教育の公開)ではありませんでしたが、OCW で学ぶ Community もでき、2012年に、試験的に、Stanford University と MIT が始め、成功を収めたのが、MOOCs です。MIT と Harvard が中心となって edX という MOOCs の Consortium(連合体)ができ、Stanford University などが、Coursera を立ち上げ、University of California Berkeley などを中心に、Udacity ができ、他にも、いくつもの、MOOCs の連合体ができました。いまでは、Internet 上で、大学発ではない、様々な、学びを提供する団体も立ち上がっています。その後、修了証(Cerfiticate)を出す、MOOCs が多くなり、それをもとに、単位を与える大学も登場、修士を、MOOCs の形の授業の履修で、授与したり、博士号も、Online での指導で、授与する大学も増えて、形式も多様になってきました。

Data Science に限ると、Exercise や、Programming Skill を育成することも、無視できませんが、それを可能にしている MOOCs のコースもあります。しかし、Certificate(修了証)を出す、有償での登録者のみが、Programming などの Skill も育成する、Exercise が利用可能になっているところが殆どになってきています。しかし、Video Lecture や、Textbook は、Audit(聴講)でも、見たり、Download できるコースも、いくつもあります。個人的に、Audit として履修したコースを、紹介していきます。

MOOCs は、Data Science だけではありません。興味のある分野や、大学の講義を検索して聴講してみるのも良いですよ。留学の可能性を考えていたり、いろいろな制約から留学は、できないと考えておられる方にも、お薦めです。まずは、MOOCs の世界にとびこんでみませんか。

Attiributes of Major MOOCs in Data Science(Data Science を提供する主要 MOOCs)

Initiatives
団体名
Nonprofit
非営利
Free to Access
アクセス制限なし
Certification Fee
修了証明書代
Institutional Credits
単位・修士など
List of Courses
コース検索
edX Yes Partial Yes Partial Data Science
Coursera No Partial Yes Partial Data Science
Udacity No Partial Yes Partial School of Data Science
Udemy No Partial Yes Partial Data Science


上の表は、Wikipedia のページを参照して、作成したものです。評判の良いコースは、たくさんあり、Coursera の Machine Learning のコースなどは、United States の Computer Science の Master(修士)Level Coursesで学ぶときには、入学前に、学んでおくコースになっているとも聞いています。有料と言っても、一コース 50 ~ 100 USD(ドル)程度ですから、専門学校や、大学、留学などと比較すると、それほど、高くありません。しかし、このサイトの Concept である、Free Open Online Data Science for All をたいせつにして、Audit(聴講)として、無償で学べるものと考えると、一般的には、edX にお勧めのものが多いように思います。

HarvardX: Professional Certificate in Data Science

講師は Rafael A Irizarry, Professor of Biostatistics, Harvard T.H. Chan School of Public Health、FOODS4ALL の Concept のもとで、一押しのコースです。

  • Web Site: HarvardX’s Data Science Professional Certificate
  • 9 Courses から構成されています。
    1. Data Science: R Basics(R の基本)
    2. Data Science: Visualization(可視化)
    3. Data Science: Probability(確率)
    4. Data Science: Inference and Modeling(推定と数理モデル)
    5. Data Science: Productivity Tools(Shell, Git, R Markdown など)
    6. Data Science: Wrangling(データ整形)
    7. Data Science: Linear Regression(線形回帰)
    8. Data Science: Machine Learning(機械学習)
    9. Data Science: Capstone(総合演習)
  • Textbook web version, pdf version も公開されています。
  • R package of datasets: CRAN dslabs: Data Science Labs, dslabs Manual.
    • Description: Datasets and functions that can be used for data analysis practice, homework and projects in data science courses and workshops. 26 datasets are available for case studies in data visualization, statistical inference, modeling, linear regression, data wrangling and machine learning.
    • どのような Datasets を利用するかがわかります。
  • 1-8 の Exercises は、DataCamp の Enterprise 版が使われているようで、よくできています。Discussion Forum もあり、質問もできます。
  • 大きな単元ごとの、まとめの Assessment(テスト)は、Certificate のための、有償の Verified User のみが、受けることができますが、小単元ごとの、Exercise も質が良く、十分学べます。
  • 初級レベルとなっていますが、おそらく、大学の Data Science 学科で学ぶ、Data Science の最初の一年間程度の内容と思われます。
  • 教養として Data Science を学びたい場合は、1. R Basics と、2. Visualization をまず試してみるのがお薦めです。
  • Get_Started で紹介した、Harvard University Data Science Services も参考にしてください。

個人的には、8 は時間がかかり、苦労しました。9 は、Verified User 向けの問題が中心で、Audit としては、学ぶ内容が十分あるわけではありませんでした。

Coursera Data Science, Johns Hopkins Univeristy

Jeff Leek, Roger D. Peng, Brian Caffo 三人の講師によるコースで、MOOCs の Data Science のコースとして、最も評価が高いものです。講師のリンクをたどると Coursera のたくさんのコースを教えていることもわかります。Johns Hopkins Univeristy は、医学系が強く、Data Science が重要な位置を占める、Public Health(公衆衛生)が有名です。

  • Web Page: Data Science Specialization(データサイエンス専門講座)
  • 10 Courses から構成されています。
    1. The Data Scientist’s Toolbox(データサイエンティストの道具箱)
    2. R Programming(R プログラミング)
    3. Getting and Cleaning Data(データの取得と整形)
    4. Exploratory Data Analysis(探索的データ解析)
    5. Reproducible Research(研究の再現性)
    6. Statistical inference(統計推論)
    7. Regression Models(回帰モデル)
    8. Practical Machine Learning(機械学習の実際)
    9. Developing Data Products(データ解析の成果物の作成)
    10. Data Science Capstone(総合演習)
  • 初級レベルとなっていますが、おそらく、大学の Data Science 学科で学ぶ、Data Science の最初の一年間程度の内容と思われます。
  • 部分的に、日本語化されており、Lecture Video には、日本語スクリプトを表示することも可能になっているようです。(すべてのビデオか未確認)
  • swirl はこのコースに関連して、開発されたものであることがわかります。
  • 最初の7日間のみ、Exercise などに、Access 可能ということで、時間切れで、HarvardX に集中することにした。いずれ、また挑戦する予定。少なくとも、最初のコースは、4択の、Exercise が中心で、一問ひねってある。4択ではしかたがないのだろう。
  • Get_Started で紹介した、The Johns Hopkins Data Science Lab, Online Courses も参考にしてください。Slide や Textbook へのリンクもあります。

edX: Data Science for Executives, Columbia University

多くの講師たちによって、実社会で、Data Science がどのように、活用されているかが紹介されています。

  • Web Site: Data Science for Executives
    • Learn the foundations of statistical thinking, the power of machine learning, and enabling technologies for data science.
  • 3 Courses から構成されています。
    1. Statistical Thinking for Data Science and Analytics
    2. Machine Learning for Data Science and Analytics
    3. Enabling Technologies for Data Science and Analytics: The Internet of Things
  • Exercise ができなかったので、Video を見ることが中心となりましたが、実社会でどのように使われているかは、ある程度理解できます。(1 番目のコースのみ受講)
  • Columbia University の Data Science の Lecture からとった、 “Doing Data Science: Straight Talk from the Frontline” by Rachel Schutt, Cathy O’Neil (邦訳「データサイエンス講義」瀬戸山雅人他訳、オライリー・ジャパン(ISBN978-4-87311-701-0, 2014.10.28))はお薦めです。英語版は、Internet 上に、pdf があるが、どのような条件で公開されているか不明なので、リンクはつけません。
  • Course を支えている、Jared P. Lander は、“R for Everyone - Second Edition” の著書でもあります。(邦訳「みんなのR 第2版」ISBN978-4-8399-6215-9, 2018.12.28)

edX: Data Science Ethics, Michigan University

H. V. Jagadish が、データサイエンスの倫理を、一般の倫理からはじめ、論じています。

  • Web Site: Data Science Ethics
    • Learn how to think through the ethics surrounding privacy, data sharing, and algorithmic decision-making.
  • Coursera からも Link されています。
  • Exercise ができなかったので、Video を見ることが中心でしたが、基本から語られており、基本を整理して、実際の問題を様々な方面から論じており、お薦めです。

Other Courses

Coursera: Fighting COVID-19 with Epidemiology - A Johns Hopkins Teach-Out

edX Introduction to Data Science, IBM

  • Web Page
  • 実際の Data Scientists の Testimonial(証言)などが多いが、企業のコースで、Academic ではない。
  • Data Science の起業における基本的枠組みは理解できる。
  • Audit では、Exercise はできません。

U of Tronto Coders

Free Online Books

Free Open Online Books for Data Science がたくさんあります。特に、R Markdown の一形式のBookdown での出版、または同種の Free Open Online の出版は、日本語の原著もふくめ、増えていくことを期待します。
Bookdown および Archive のサイトに公開されているものを中心に紹介します。

R Programming for Data Science, by Roger D. Peng

  • Web Site
  • Coursera Data Science, Johns Hopkins Univeristy の講師の一人で、R の基本について書かれています。R の基本についての本はたくさんありますが、よくまとまっていると思います。

R for Data Science, by Garrett Grolemund and Hadley Wickham

  • Web Site
  • 日本語訳「Rではじめるデータサイエンス」
  • Basic Online Reference なにかで困ったら、まずは、この本を見てください。著者は、R の Package の開発をしている、有名な Data Scientists

R Graphics Cookbook, 2nd edition, by Winston Chang

  • Web Site
  • R Graphics の多くの例を含む良書です。150以上のレシピー別にまとめられています。A practical guide that provides more than 150 recipes to help you generate high-quality graphs quickly
  • 日本語訳「Rグラフィックスクックブック――ggplot2によるグラフ作成のレシピ集」O’REILLY

ggplot2: Elegant Graphics for Data Analysis, by Hadley Wickham

  • Website: The online version of work-in-progress 3rd edition of “ggplot2: elegant graphics for data analysis”
  • 同名の、Springer から出版されている本があり、日本語訳もありますが、古く、ggplot2 も改訂されているため、Code も動かないものが多くなっています。そこで、R for Data Science に書かれている部分は、省いて、ggplot2 の部分を補完する形で準備されている、第三版です。

A Very Short Course on Time Series Analysis, by Roger D. Peng

  • Website: The use of time series methods in biomedical and public health applications.
  • Time Series Data は、経済関係の Data にも現れますが、生物医学および、公衆衛生の分野向けの授業をもとにしたものがまとめられています。

bookdown: Authoring Books and Technical Documents with R Markdown, by Yihui Xie

  • Web Site: A guide to authoring books with R Markdown
  • Yihui Xie は、RStudio に属しており、R Markdown その他、R に関する出版に関わる開発とともに、本も書いています。

An Introduction to Statistical Learning with Applications in R, by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

The Elements of Statistical Learning Data Mining, Inference, and Prediction, by Trevor Hastie, Robert Tibshirani, Jerome Friedman

Miscellaneous

MeetUp は各地で開かれ、Blog もたくさんあります。あなたにあった興味のあるものを探してください。


For comments, please send us an email to: freeopenonlinedatascience4all[at]gmail.com