令和7年ITパスポート学習記録~データサイエンス編その①~

ITパスポート
この記事は約7分で読めます。

前回の学習内容はこちら。

データサイエンスって何やるんだろうって思い、ちょっとペラペラっとテキストをめくってみたのですが、その中身は、グラフグラフグラフ計算計算計算!!!!!!

驚きました。

がんばっていきましょー!この章でラストです。

スポンサーリンク

ITパスポート学習記録~データサイエンス編その①~

データ分析の手法

定量分析数値や量(グラフ等)により事象やパターンを明確にして分析する方法。人口統計、販売データ、Webサイトの訪問データ、企業のシーズンごとの売上データ、アンケート結果など。
定性分析定性分析は、数値には現れていないデータに焦点を当て、事象やパターンを分析する方法。顧客観察、インタビュー、文書分析などの手法、アンケートで得るコメントなど。
散布図散布図とは、2つの変数を視覚的に表すグラフである。各データ点は、縦横それぞれの軸に対応する値がプロットされる。散布図のように、2つ以上の変数の傾向を調査する統計手法を相関分析と呼ぶ。散布図を用いると、データの分布や相関関係を確認できる。
ヒストグラムヒストグラムは、データの頻度分布を表すことに有用である。特定の範囲の値がデータセットの中にどれだけ存在するかを示す。
レーダーチャートレーダーチャートは、複数の項目の大きさを表すことができるグラフである。多変量の値を一度に視覚化できる。
バブルチャートバブルチャートは、データの3つの指標を視覚的に表すグラフである。以下の例は、RFM分析をバブルチャートで表している。縦軸で年間の購入数、横軸で顧客単価、バブルの大きさで顧客数のボリュームを表している。
パレート図パレート図は、データを重要度や頻度で降順に並べた棒グラフと、累積パーセンテージ(%)の折れ線グラフで表したものである。各項目の重要度に基づき3つのカテゴリー(A、B、C)に分ける手法をABC分析と呼ぶ。

データ分析と統計の基本

平均値平均値とは、すべてのデータの値を合計し、データの個数で割った値のことである。ある学生のテストの得点結果が50点、65点、65点、80点、85点であるとき、学生全体の平均値は次のようになる。

(50+65+65+80+85)÷5=69(平均値:69)
中央値中央値とは、データを昇順(小さい順)または降順(大きい順)に並べたときの、中央の値のことである。データの個数が奇数の場合は中央値は1つである。データの個数が偶数の場合は中央値が2つとなるので、その2つの平均を中央値とする。ある学生のテストの得点結果が50点、65点、65点、80点、85点であるとき、学生全体のテスト結果の中央値は次のようになる。

真ん中の値が65(中央値:65)
最頻値最頻値とは、データセットに最もたくさん出現する値のことである。ある学生のテストの得点結果が50点、65点、65点、80点、85点であるとき、学生全体のテスト結果の最頻値は次のようになる。

65点が2つでもっとも頻度が高い(最頻値:65)
偏差値標準偏差とは、データ全体のばらつき具合を数値で表したものである。例えばある確率分布図を見たとき、「標準偏差が大きい」場合は全体的なデータのばらつきが広がっており、「標準偏差が小さい」場合は、平均値周辺にデータ全体が集中している状態である。

標準偏差には、次のようなルールがある:
・平均値から±標準偏差2個分に含まれるデータは全体の約95%を占める
・平均値から±標準偏差1個分に含まれるデータは全体の約68%を占める

標準偏差Xの意味は「各データが平均値から標準的にX離れている」ということである。例えば、平均値50、標準偏差10の場合は「平均値50に対して、各データが標準的に10離れている」という意味になります。

偏差値の公式:
偏差値=10×((個人のスコア-平均値)÷標準偏差)+50

例題:平均点が60点、標準偏差が10のとき、学生Aは70点を取得した。このときの偏差値はいくつか。
偏差値=10×((70ー60)÷10)+50=60(偏差値:60)
期待値期待値とは、予想される平均的な結果のことである。確率的な事象が発生する場合、その結果が取りうる値とその確率をかけ合わせた値の総和のことを指す。

10枚のくじが入った箱からくじを1枚引く場合の期待値を求める。くじの内訳は、1000円が1枚、500円が2枚、100円が7枚のとき、総和は10枚となる。それぞれの確率は、1000×0.1=100、500×0.2=100、100×0.7=70円となり、その総和=期待値となり、期待値は、100+100+70=270円となる。
順列順列は、n個の異なるものからr個を取り出して1列に並べる場合の数を表す。公式と、公式を使って3種類のフレーバーを上下に並べるダブルアイスの組み合わせが何通りになるかを考えてみる。

公式:nPr=n!÷(n-r)!
3種類のフレーバーを並べるダブルアイスの組み合わせ:3P2=3!÷(3-2)!=3×2×1÷1=6(順列:6通り)
組み合わせ組み合わせは、n個の異なるものからr個を取り出してできる場合の数を表す。公式と、公式を使って3種類のフレーバーの組み合わせが何通りになるかを考えてみる。

公式:nCr=n!÷(r!×(n-r)!)
3種類のフレーバーを並べるダブルアイスの組み合わせ:3C2=3!÷(2!×(3-2)!)=3×2×1÷(2×1×1)=6(組み合わせ:3通り)

ビッグデータと分析手法

ビッグデータビッグデータとは、従来のデータベースシステムでは管理・処理・解析が困難なほど巨大なデータの集合のことである。ビッグデータは、単なる文字や数字のデータだけでなく、動画、画像、音声、センサーデータなど多様な形式のデータを含む。
母集団母集団とは、調査の対象となる集団全体のことである。
標本標本(サンプル)は、母集団から一部を取り出した調査対象のことである。
標本抽出大きな母集団から代表的な一部分を選び出すこと。
標本サイズ調査のために選ばれた個体の数のこと。
単純無作為抽出母集団全体から、ランダムに標本抽出する。
層別抽出母集団を異なる「層」に分けてから、標本抽出したもの。母集団から各層が適切に抽出されることが担保される。
多段抽出母集団からの標本抽出を段階的に行ったもの。これにより、大規模データであっても高い精度での検証が可能となる。図の例は、

・1段階目:年齢別で抽出
・2段階目:男女別で抽出

とし、年齢と性別の2つの観点でより公平な標本を抽出することができる。
回帰分析回帰分析は、1つ以上の説明変数と目的変数の関係を分析する手法である。説明変数が目的変数にどの程度影響を与えるか示したり、将来の目的変数の予測に利用したりする。回帰分析は機械学習の教師あり学習の1つに分類される。
決定木分析決定木分析(けっていぎぶんせき:ディシジョンツリー)は、データをツリー構造に分割することで、パターンや関連性を見出す手法である。機械学習の教師あり学習でよく利用される。

決定木分析の結果より、
・天気=晴れ、かつ、気温30℃以上のときは混雑が予想されるため、スタッフのシフトを手厚くする
・天気=雨、かつ、気温30℃未満のときはお客さんが少ないためキャンペーンを開催する
などの施策を取ることができる。
クラスター分析クラスター分析(Cluster:束、集まり)とは、大量のデータを似た性質を持つもの同士でグループ化する手法である。グループ化されたデータの集まりをクラスター(集団)と呼ぶ。機械学習の教師なし学習でよく利用される。元となるデータの数が膨大な場合、単に「20代女性」のグループを抽出したとしても、購入傾向はバラバラで、分析の精度は低くなる。そこで、より似通った傾向を抽出してグループ化することで、より多くの人に高い精度でECサイトのおすすめ商品を提示することが可能になるなどがクラスター分析のメリットと言える。

Ankiアプリ用データ

以下のサイトより、Ankiアプリで活用できるITパスポートのストラテジ系+マネジメント系+テクノロジ系(ハードウェア+ソフトウェア+ネットワーク+コンピュータとデジタル情報+プログラムとアルゴリズム+コンピュータシステム+情報セキュリティ+データサイエンス(本日分まで))の暗記データがダウンロードできます。

パスワードは半角で、「shirakawa」です。

ぜひ、学習にご活用ください。

firestorageダウンロード

Ankiアプリの使い方

Ankiアプリの簡単な使い方をご紹介しています。ぜひ、ご一読ください。

合わせて読みたい

参考文献

今回、学習用として参考にさせていただいているのがこちらの教本です。AmazonではPDF版もあるようです。セクションごとにQRコードを読み取って小テストを受けることができ、学習の確認もできて頼りがいのある一冊です。また、YouTubeでの解説動画もありますので、そちらも参考に学習を進めると良いでしょう。

コメント

タイトルとURLをコピーしました