Free Open Online Learning Resources を MOOCs (Massive Open Online Courses) と、R Markdown の一つの形式の、Bookdown による、Free Online Books を 中心に紹介します。これらのすばらしい Resource を活用することが、英語での学びを推薦する理由の一つでもあります。
MOOCs (Massive Open Online Courses)
コースとして、Open Online で学ぶことができます。世界のトップレベルの大学の、トップレベルのコースを受講できます。
- 完全に、Free(無償)のものは少ないですが、Data Science のように、新しい分野を学ぶときには、とても有効です。ほとんどのコースが機能限定(演習問題ができない、または採点されない)ですが、Free(無償)で Audit(聴講)できるようになっています。途中まで学んで、少し難しいと感じることもあると思いますから、まずは、Audit で登録して受講することをお薦めします。
- 有償ですが、修士(Master)の学位を取得することも可能なプログラムもあります。
- 日本語が中心の JMOOC もありますが、英語で学ぶことで広がる世界への挑戦を応援します。
MOOCs について
Open Education の分野では、最初の MOOC は、2008年に、Dave Cormier によって始められた Connectivism and Connective Knowledge (CCK08) だとされています。もう一つの流れとして、2003年に Massachusetts Institute of Technology (MIT) で公式(非公式版は2002年)に大学の実際の授業を公開した Open Courseware(OCW)があり、United States などの、多くの大学で、OCW がスタートしました。日本でも、JOCW が組織され、いくつかの大学で授業の公開がされました。最初は、Open Educational Resources (OER 教育コンテンツの公開) で、Open Education(教育の公開)ではありませんでしたが、OCW で学ぶ Community もでき、2012年に、試験的に、Stanford University と MIT が始め、成功を収めたのが、MOOCs です。MIT と Harvard が中心となって edX という MOOCs の Consortium(連合体)ができ、Stanford University などが、Coursera を立ち上げ、University of California Berkeley などを中心に、Udacity ができ、他にも、いくつもの、MOOCs の連合体ができました。いまでは、Internet 上で、大学発ではない、様々な、学びを提供する団体も立ち上がっています。その後、修了証(Cerfiticate)を出す、MOOCs が多くなり、それをもとに、単位を与える大学も登場、修士を、MOOCs の形の授業の履修で、授与したり、博士号も、Online での指導で、授与する大学も増えて、形式も多様になってきました。
Data Science に限ると、Exercise や、Programming Skill を育成することも、無視できませんが、それを可能にしている MOOCs のコースもあります。しかし、Certificate(修了証)を出す、有償での登録者のみが、Programming などの Skill も育成する、Exercise が利用可能になっているところが殆どになってきています。しかし、Video Lecture や、Textbook は、Audit(聴講)でも、見たり、Download できるコースも、いくつもあります。個人的に、Audit として履修したコースを、紹介していきます。
MOOCs は、Data Science だけではありません。興味のある分野や、大学の講義を検索して聴講してみるのも良いですよ。留学の可能性を考えていたり、いろいろな制約から留学は、できないと考えておられる方にも、お薦めです。まずは、MOOCs の世界にとびこんでみませんか。
Attiributes of Major MOOCs in Data Science(Data Science を提供する主要 MOOCs)
Initiatives 団体名
|
Nonprofit 非営利
|
Free to Access アクセス制限なし
|
Certification Fee 修了証明書代
|
Institutional Credits 単位・修士など
|
List of Courses コース検索
|
edX
|
Yes
|
Partial
|
Yes
|
Partial
|
Data Science
|
Coursera
|
No
|
Partial
|
Yes
|
Partial
|
Data Science
|
Udacity
|
No
|
Partial
|
Yes
|
Partial
|
School of Data Science
|
Udemy
|
No
|
Partial
|
Yes
|
Partial
|
Data Science
|
上の表は、Wikipedia のページを参照して、作成したものです。評判の良いコースは、たくさんあり、Coursera の Machine Learning のコースなどは、United States の Computer Science の Master(修士)Level Coursesで学ぶときには、入学前に、学んでおくコースになっているとも聞いています。有料と言っても、一コース 50 ~ 100 USD(ドル)程度ですから、専門学校や、大学、留学などと比較すると、それほど、高くありません。しかし、このサイトの Concept である、Free Open Online Data Science for All をたいせつにして、Audit(聴講)として、無償で学べるものと考えると、一般的には、edX にお勧めのものが多いように思います。
HarvardX: Professional Certificate in Data Science
講師は Rafael A Irizarry, Professor of Biostatistics, Harvard T.H. Chan School of Public Health、FOODS4ALL の Concept のもとで、一押しのコースです。
- Web Site: HarvardX’s Data Science Professional Certificate
- 9 Courses から構成されています。
- Data Science: R Basics(R の基本)
- Data Science: Visualization(可視化)
- Data Science: Probability(確率)
- Data Science: Inference and Modeling(推定と数理モデル)
- Data Science: Productivity Tools(Shell, Git, R Markdown など)
- Data Science: Wrangling(データ整形)
- Data Science: Linear Regression(線形回帰)
- Data Science: Machine Learning(機械学習)
- Data Science: Capstone(総合演習)
- Textbook web version, pdf version も公開されています。
- R package of datasets: CRAN
dslabs
: Data Science Labs, dslabs
Manual.
- Description: Datasets and functions that can be used for data analysis practice, homework and projects in data science courses and workshops. 26 datasets are available for case studies in data visualization, statistical inference, modeling, linear regression, data wrangling and machine learning.
- どのような Datasets を利用するかがわかります。
- 1-8 の Exercises は、DataCamp の Enterprise 版が使われているようで、よくできています。Discussion Forum もあり、質問もできます。
- 大きな単元ごとの、まとめの Assessment(テスト)は、Certificate のための、有償の Verified User のみが、受けることができますが、小単元ごとの、Exercise も質が良く、十分学べます。
- 初級レベルとなっていますが、おそらく、大学の Data Science 学科で学ぶ、Data Science の最初の一年間程度の内容と思われます。
- 教養として Data Science を学びたい場合は、1. R Basics と、2. Visualization をまず試してみるのがお薦めです。
- Get_Started で紹介した、Harvard University Data Science Services も参考にしてください。
個人的には、8 は時間がかかり、苦労しました。9 は、Verified User 向けの問題が中心で、Audit としては、学ぶ内容が十分あるわけではありませんでした。
Coursera Data Science, Johns Hopkins Univeristy
Jeff Leek, Roger D. Peng, Brian Caffo 三人の講師によるコースで、MOOCs の Data Science のコースとして、最も評価が高いものです。講師のリンクをたどると Coursera のたくさんのコースを教えていることもわかります。Johns Hopkins Univeristy は、医学系が強く、Data Science が重要な位置を占める、Public Health(公衆衛生)が有名です。
- Web Page: Data Science Specialization(データサイエンス専門講座)
- 10 Courses から構成されています。
- The Data Scientist’s Toolbox(データサイエンティストの道具箱)
- R Programming(R プログラミング)
- Getting and Cleaning Data(データの取得と整形)
- Exploratory Data Analysis(探索的データ解析)
- Reproducible Research(研究の再現性)
- Statistical inference(統計推論)
- Regression Models(回帰モデル)
- Practical Machine Learning(機械学習の実際)
- Developing Data Products(データ解析の成果物の作成)
- Data Science Capstone(総合演習)
- 初級レベルとなっていますが、おそらく、大学の Data Science 学科で学ぶ、Data Science の最初の一年間程度の内容と思われます。
- 部分的に、日本語化されており、Lecture Video には、日本語スクリプトを表示することも可能になっているようです。(すべてのビデオか未確認)
swirl
はこのコースに関連して、開発されたものであることがわかります。
- 最初の7日間のみ、Exercise などに、Access 可能ということで、時間切れで、HarvardX に集中することにした。いずれ、また挑戦する予定。少なくとも、最初のコースは、4択の、Exercise が中心で、一問ひねってある。4択ではしかたがないのだろう。
- Get_Started で紹介した、The Johns Hopkins Data Science Lab, Online Courses も参考にしてください。Slide や Textbook へのリンクもあります。
edX: Data Science for Executives, Columbia University
多くの講師たちによって、実社会で、Data Science がどのように、活用されているかが紹介されています。
- Web Site: Data Science for Executives
- Learn the foundations of statistical thinking, the power of machine learning, and enabling technologies for data science.
- 3 Courses から構成されています。
- Statistical Thinking for Data Science and Analytics
- Machine Learning for Data Science and Analytics
- Enabling Technologies for Data Science and Analytics: The Internet of Things
- Exercise ができなかったので、Video を見ることが中心となりましたが、実社会でどのように使われているかは、ある程度理解できます。(1 番目のコースのみ受講)
- Columbia University の Data Science の Lecture からとった、 “Doing Data Science: Straight Talk from the Frontline” by Rachel Schutt, Cathy O’Neil (邦訳「データサイエンス講義」瀬戸山雅人他訳、オライリー・ジャパン(ISBN978-4-87311-701-0, 2014.10.28))はお薦めです。英語版は、Internet 上に、pdf があるが、どのような条件で公開されているか不明なので、リンクはつけません。
- Course を支えている、Jared P. Lander は、“R for Everyone - Second Edition” の著書でもあります。(邦訳「みんなのR 第2版」ISBN978-4-8399-6215-9, 2018.12.28)
edX: Data Science Ethics, Michigan University
H. V. Jagadish が、データサイエンスの倫理を、一般の倫理からはじめ、論じています。
- Web Site: Data Science Ethics
- Learn how to think through the ethics surrounding privacy, data sharing, and algorithmic decision-making.
- Coursera からも Link されています。
- Exercise ができなかったので、Video を見ることが中心でしたが、基本から語られており、基本を整理して、実際の問題を様々な方面から論じており、お薦めです。
Other Courses
Coursera: Fighting COVID-19 with Epidemiology - A Johns Hopkins Teach-Out
edX Introduction to Data Science, IBM
- Web Page
- 実際の Data Scientists の Testimonial(証言)などが多いが、企業のコースで、Academic ではない。
- Data Science の起業における基本的枠組みは理解できる。
- Audit では、Exercise はできません。
Free Online Books
Free Open Online Books for Data Science がたくさんあります。特に、R Markdown の一形式のBookdown での出版、または同種の Free Open Online の出版は、日本語の原著もふくめ、増えていくことを期待します。
Bookdown および Archive のサイトに公開されているものを中心に紹介します。
- Data Science の分野は、発展のスピードも速いので、中身の改訂も重要で、紙媒体で出版されたとしても、Online でも公開され、次の版のものが準備されることが多くなっています。
- Code を試すにも、紙媒体では、入力がたいへんです。R Markdown を利用して、Online で公開されているものは、とても有用です。
- 日本では、翻訳本がまだ主流ですが、翻訳本は、原著の出版から一年は後になります。手元にある便利性はありますが、Free Online がお薦めです。
- まず、最初の二冊、そして、Graphic のことをもう少し知りたいときは、さらに次の二冊を、わたしは、参照しています。それ以外は、目的に合わせて、見ています。ここに紹介しないものでも、読んでみたい、または、参照する本もたくさんあります。
R Programming for Data Science, by Roger D. Peng
- Web Site
- Coursera Data Science, Johns Hopkins Univeristy の講師の一人で、
R
の基本について書かれています。R
の基本についての本はたくさんありますが、よくまとまっていると思います。
R for Data Science, by Garrett Grolemund and Hadley Wickham
- Web Site
- 日本語訳「Rではじめるデータサイエンス」
- Basic Online Reference なにかで困ったら、まずは、この本を見てください。著者は、R の Package の開発をしている、有名な Data Scientists
R Graphics Cookbook, 2nd edition, by Winston Chang
- Web Site
- R Graphics の多くの例を含む良書です。150以上のレシピー別にまとめられています。A practical guide that provides more than 150 recipes to help you generate high-quality graphs quickly
- 日本語訳「Rグラフィックスクックブック――ggplot2によるグラフ作成のレシピ集」O’REILLY
ggplot2: Elegant Graphics for Data Analysis, by Hadley Wickham
- Website: The online version of work-in-progress 3rd edition of “ggplot2: elegant graphics for data analysis”
- 同名の、Springer から出版されている本があり、日本語訳もありますが、古く、
ggplot2
も改訂されているため、Code も動かないものが多くなっています。そこで、R for Data Science に書かれている部分は、省いて、ggplot2 の部分を補完する形で準備されている、第三版です。
A Very Short Course on Time Series Analysis, by Roger D. Peng
- Website: The use of time series methods in biomedical and public health applications.
- Time Series Data は、経済関係の Data にも現れますが、生物医学および、公衆衛生の分野向けの授業をもとにしたものがまとめられています。
bookdown: Authoring Books and Technical Documents with R Markdown, by Yihui Xie
- Web Site: A guide to authoring books with R Markdown
- Yihui Xie は、RStudio に属しており、R Markdown その他、R に関する出版に関わる開発とともに、本も書いています。
An Introduction to Statistical Learning with Applications in R, by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
The Elements of Statistical Learning Data Mining, Inference, and Prediction, by Trevor Hastie, Robert Tibshirani, Jerome Friedman
Miscellaneous
MeetUp は各地で開かれ、Blog もたくさんあります。あなたにあった興味のあるものを探してください。
- Q & A stackoverflow: Search Engine で、英語で
R
についての質尾項目を書くと、基本的に、このサイトに行き着きます。
- Simply Statistics: A statistics blog by Rafa Irizarry, Roger Peng, and Jeff Leek: Rafa Izizarry は、HarvardX Data Science の講師、Roger Peng と Jeff Leek は、Coursera の Data Science の三人の講師のうちの二人です。頻繁に更新されているわけではありませんが、興味深い Article や、情報があるので読んでいます。
For comments, please send us an email to: freeopenonlinedatascience4all[at]gmail.com