Last Updated: 2020-05-18
Free Open Online Data Science for All (FOODS4ALL)
- Free: 無償 (Free of Charge)・偏見なく (With Less Bias)
- Open: 公開されているものを活用し (Utilizing Public Domain Software, Open Data)、結果を共有し (Open to Others)
- Online: 公共の資源としての Internet 上の情報、Online ツールを活用
Data Science: データ (Data) を活用して課題を発見・探求し、適切な解決策を探る意思決定のための科学(Decision Science)で、 エンピリカル(Empirical Study)すなわち、理論ではなく、実証性を特徴とする。 データから得られる特徴を表示するとともに、数理モデルを適用し・機械学習などで評価し・アルゴリズムを策定する数理的思考を通して得られた結果を、可視化などによってコミュニケーションをおこない、共有し、他者の意見を聞き理解する努力をしながら、さらに課題について、あらたにデータを活用して考え、検証し、適切な解決策がもたらす新たな課題も予測しながら、調整をはかる。
- For All: 経済的な格差が、教育格差とならないよう、Free Open Online の特徴を生かして、すべてのひとに開かれた、学びを場をめざす。Data Science の学びに留まらず、Data Science を用いて、考え、学び、ひとり一人への影響に思いをはせ、活きた智として活用することを目標とする。Mathematics(数学)や、Statistics(統計)や、Computer、または、英語は、苦手と言う人にも開かれた、学びの場をめざします。
より詳しくは、About 参照
Reproducible and Literate Programming
Reproducible (再現可能)かつ、Literate な(理解できるように記述した)Program(プログラム・コード)を共有することをたいせつにします。
- 学びは、まねをする部分もありますし、覚えることも、実際に、試してみることもたいせつで、それには、記録が不可欠です。理解できるように記述することは、自分のためにも、共有するためにも、改善のためにも必要です。
- Data Science では、Data が更新されたときに、結果を更新する必要性が生じます。Data の様々な見方を試したり、Visualization(可視化)した結果を、他の人に評価してもらうことも重要です。このためには、どのような道筋で、結果にたどり着いたかが、理解できるように、記録されていることが必須です。
- Science(科学)に、Reproducibility(再現可能性)は、たいせつです。宇宙物理学(Astrophysics)や、進化生物学(Evolutionary Biology)などでは、Reproducibility を問うことは困難ですが、Data Science においては、結果を導いた、道筋を再現(Reproduce)でき、かつ共有できることは、たいせつなだけでなく、とても有用です。Science の性質の、反証可能性(Falsifiability)のためにも、Literate な記録は、鍵となるものです。早い段階から、Reproducible and Literate Programing が習慣となることを期待しています。
- Data Science や、それを活用した、AI (Artificial Intelligence) は、有用なだけでなく、ひろい範囲に、大きな影響も及ぼします。どのような Data や情報をどのように利用しているかを、極力示すことは、倫理的であると同時に、責任でもあります。
Software
R
を主として利用します。RStudio
を活用します。
- Data Science には、多くの Software がありますが、特に、
R
または、Python は主要な Programming 言語です。
- Python の情報についても、いずれは、加えていく予定です。Python は汎用性も高いすぐれた Programming 言語ですが、Python を学ぶには、Programming の基本から始める必要があります。
R
は統計解析 (Statistical Analysis) のために設計された Programing 言語で、Data Science 分野で多くの専門家も利用しています。初級レベルでは、R
が適しているのではないでしょうか。Simple なものであれば、R
のなかでも Python の Program を動かすことも可能です。
- すでに上に書きましたが、学びのためにも、結果を共有し活用するためにも、Reproducible (再現可能)かつ、Literate な(理解できるように記述した)ものとして記録することが重要です。そのために、
R
には、R Markdown
が用意されています。この Homepage も R Markdown
で記しています。R Markdown
の一つの形式である Bookdown
形式による本の出版も一般的になってきました。R Markdown
が整備されていることも、大きなメリットです。R Markdown
については、別途説明します。(Python では、Jupyter (Julia+Python+R, Python Notebook) が同様の機能を持っています。Python を使うときには、Jupyter を活用してください。)
- 商用の表計算ソフトに慣れている方も多いと思います。
R
は、Programming 言語ですから、最初は、少し難しく感じるかもしれませんが、Reproducible and Literate Programming など、すぐその有用性が理解できると思います。商用のソフトは、いろいろな意味で、Free ではないということもあります。
R
は RStudio
を用いて、利用することが、一般的になっています。Windows でも、Mac でも、Linux でも、同じように動作し、かつ、Free(無償)で利用することができます。
Local and Online
手元の Computer と同時に、Online でも、作業が可能です。
- Online Cloud の環境をもつことで、Internet に接続していれば、どこでも、同じ環境で Data Science を学び、Data を分析し、考えることができます。
- 同じ環境なので、共同での作業、協力も可能となります。
R
では、RStudio Cloud を Free (無償)で利用することができます。
- 公的な機関や、大学などで、RStudio Server を利用できれば、ひとり一人が、別々に、package を install する手間も省けます。結果の共有も、楽になります。
- Interactive(対話型)な、Graph や、Homepage のためには、共有できる環境にある Server が必要です。これも、Online で、作業をしていれば、利用しやすくなります。
- 現状は、環境が、不十分な面もありますが、今後、整備されていくと思います。
Learning Resources
学びのための Resource を紹介します。
- Free(無償)な、Online の Resource ですばらしいものがたくさんあります。自分で学びたいひと、さらに、深く学びたい人と一緒に学んでいきたいと思います。
- Moocs (Massive Open Online Courses) を、実際に受講したものを中心に、紹介します。Moocs 以外にも、(少なくとも、途中まで)Free(無償)で学べる講座を紹介します。
- Free(無償)で公開されている、本を紹介します。
Public and Open Data
利用可能な、Public Data とか Open Data といわれるものと、その利用方法を紹介します。
- 膨大なすばらしい Data がたくさん利用可能です。主要ないくつかの Data を紹介します。
R
の Package を利用して Data を Download したり、Webpage の表を読み込むことも可能です。
- Data Science は、理論ではなく、実証性を特徴とする科学 (Empirical Science) です。そのためには、学習の段階から、実際の Data に触れ、さらに、自分で、公開されている Data を探して、分析してみることをお薦めします。
Examples
Data Science の例とともに、Reproducible, Literate Programming の例を増やしていきます。
- 実際に Public and Open Data を用いて、どのように、Data Science を通して考えるかは、例が大切です。それも、Reproducible and Literate なものとして得ることが、初心者には必須です。単に教科書に出ているような例だけでなく、Hot な News や、課題を、Public and Open Data を用いて、Media の情報を検証したり、そこには現れないほかの視点から、考察する例が必要だと思います。少しずつ、提供していきます。
- みなさんと一緒に学んでいくことができればと願っています。みなさんも、ニュースなどで接した情報を、自分でグラフを作成したりして確かめてみませんか。メディアで伝えるのは、背後にある Data の一部またはひとつの見方だけであることがほとんどです。自分で、実際の Data に触れることで、新しい見方をすることができると思います。それは、新しい価値の創造とも言えるかもしれませんよ。
- Memorandom(覚え書き)を必要に応じて残します。
English
英語での学びを支援します。Expand your horizon!
- 英語での Resource(資源・情報)はおそらく、特に、Data Science 分野においては、日本語での Resource と比較できないほど膨大であるだけではなく、上質なものがたくさんあります。
- 身近な課題であっても、世界から学ぶことで、世界は広がります。地球規模の問題も、たくさんあり、それらの多くが、私たちの、身近な問題に関係しています。
- 日本語の Site でも、すぐれたものはありますが、この Site では、英語を活用して、学び、考えることに、とくに力を入れていきます。日本語で学んでいる人が、英語で学ぶことによって世界を広げることができればと願っています。そのため、英語の用語を極力使い、また、紹介していきます。Data Science の英語は、難しくありません。学ぶべきは、Data Science です。英語を、Excuse(いいわけ)にしないようにできるとよいですね。
- 中国語も、重要になってくるでしょう。検索では、中国の情報は現れにくいこともあります。将来的には、中国語の Site の情報も発信していきたいと願っています。
For comments, please send us an email to: freeopenonlinedatascience4all[at]gmail.com