Skip to content
GitLab
Explore
Sign in
Register
Primary navigation
Search or go to…
Project
M
ML-For-Beginners
Manage
Activity
Members
Labels
Plan
Issues
Issue boards
Milestones
Wiki
Code
Merge requests
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Admin message
为了安全,强烈建议开启2FA双因子认证:User Settings -> Account -> Enable two-factor authentication!!!
Show more breadcrumbs
Huan Ma
ML-For-Beginners
Commits
3360c671
Commit
3360c671
authored
3 years ago
by
kenya-sk
Browse files
Options
Downloads
Patches
Plain Diff
add japanese translation of 2-Regression/2-Data
parent
62eb776b
No related branches found
Branches containing commit
No related tags found
No related merge requests found
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
2-Regression/2-Data/translations/README.ja.md
+5
-4
5 additions, 4 deletions
2-Regression/2-Data/translations/README.ja.md
with
5 additions
and
4 deletions
2-Regression/2-Data/translations/README.ja.md
+
5
−
4
View file @
3360c671
# Scikit-learnを用いた回帰モデルの構築: データの準備と可視化
> 
>
> [Dasani Madipalli](https://twitter.com/dasani_decoded) によるインフォグラフィック
## [講義前のクイズ](https://jolly-sea-0a877260f.azurestaticapps.net/quiz/11/)
...
...
@@ -18,7 +19,7 @@ Scikit-learnを使って機械学習モデルの構築を行うために必要
どのような質問に答えるかによって、どのようなMLアルゴリズムを活用するかが決まります。また、返ってくる回答の質は、データの性質に大きく依存します。
このレッスンのために用意された
[
データ
](
(../../data/US-pumpkins.csv
)
)を見てみましょう。この.csvファイルは、VS Codeで開くことができます。ざっと確認してみると、空欄があったり、文字列や数値データが混在していることがわかります。また、
'
Package
'
という奇妙な列では
'
sacks
'
や
'
bins
'
などの異なる単位の値が混在しています。このように、データはちょっとした混乱状態にあります。
このレッスンのために用意された
[
データ
](
(../../data/US-pumpkins.csv
)
)を見てみましょう。この.csvファイルは、VS Codeで開くことができます。ざっと確認してみると、空欄があったり、文字列や数値データが混在していることがわかります。また、
「
Package
」
という奇妙な列では
「
sacks
」
や
「
bins
」
などの異なる単位の値が混在しています。このように、データはちょっとした混乱状態にあります。
実際のところ、MLモデルの作成にすぐに使えるような整ったデータセットをそのまま受け取ることはあまりありません。このレッスンでは、Pythonの標準ライブラリを使って生のデータセットを準備する方法を学びます。また、データを可視化するための様々なテクニックを学びます。
...
...
@@ -141,7 +142,7 @@ Visual Studio Codeで _notebook.ipynb_ ファイルを開き、スプレッド
データサイエンティストの役割の一つは、扱うデータの質や性質を示すことです。そのために、データのさまざまな側面を示す興味深いビジュアライゼーション(プロット、グラフ、チャート)を作成することがよくあります。そうすることで、他の方法では発見しにくい関係性やギャップを視覚的に示すことができます。
また、可視化することでデータに適した機械学習の手法を判断することができます。例えば、散布図が直線に沿っているように見える場合は、
線形回帰が
適用する手法の
良い
候補の一つとして考えられます。
また、可視化することでデータに適した機械学習の手法を判断することができます。例えば、散布図が直線に沿っているように見える場合は、適用する手法の候補の一つとして
線形回帰が
考えられます。
Jupyter notebookでうまく利用できるテータ可視化ライブラリの一つに
[
Matplotlib
](
https://matplotlib.org/
)
があります (前のレッスンでも紹介しています)。
...
...
@@ -171,11 +172,11 @@ Jupyter notebookでうまく利用できるテータ可視化ライブラリの
これは役に立つプロットですか?なにか驚いたことはありますか?
これはデータをある月についてデータの広がりとして表示しているだけなので、特に役に立つものではありません。
これはデータをある月について
、
データの広がりとして表示しているだけなので、特に役に立つものではありません。
### 活用できるようにする
グラフに有用なデータを表示するには、通常、データを何らかの方法でグループ化する必要があります。ここでは、X軸
で月を表し
、データの分布を示すようなプロットを作ってみましょう。
グラフに有用なデータを表示するには、通常、データを何らかの方法でグループ化する必要があります。ここでは、X軸
を月として
、データの分布を示すようなプロットを作ってみましょう。
1.
セルを追加してグループ化された棒グラフを作成します。
...
...
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment