いつかのプログラムとデータサイエンス学習についてはこちらから。
一通り、「令和7年度ITパスポート超効率の教科書+よく出る問題集」の学習を終え、データサイエンスの英単語の略語とキーワードの再学習を行うことにしました。
その再学習もこれでラストです。15章分の学習お疲れ様でした。
さて、いつものようにちょっとズルをして、ChatGPT師匠に答えを聞いたものをまとめてみました。
ITパスポート学習記録~データサイエンス番外編~
データサイエンス
英単語
RDBMS(Relational Database Management System)
リレーショナルデータベースを管理・操作するシステム。データを表(テーブル)として構造化し、SQLを用いて検索・更新・削除などを行う。代表的なRDBMSにはMySQL、PostgreSQL、Oracle Databaseなどがある。データの整合性を保ちやすく、大規模なシステムに適している。
CSV(Comma Separated Values)
データをカンマ(,)で区切ったテキスト形式のファイル。表計算ソフトやデータベースとの相性が良く、異なるシステム間でのデータ交換に広く用いられる。シンプルな構造で扱いやすいが、データ型の指定ができず、データ量が多いと処理が遅くなることがある。
E-R図(Entity-Relationship Diagram)
データベースの設計時に用いる図で、データの構造や関連性を視覚的に表現する。エンティティ(実体)、リレーションシップ(関係)、アトリビュート(属性)で構成される。システム開発の初期段階でデータの整理を行うために重要なツール。データの一貫性を保つため、適切な設計が求められる。
キーワード
定量分析
数値データを用いて客観的に分析する方法。統計や数学的手法を活用し、データの傾向や関係性を明確にする。売上分析やリスク評価などで用いられ、具体的な指標が得られるため、意思決定に役立つ。
定性分析
数値化できないデータ(意見・感情・評価など)を分析する方法。インタビューやアンケートの自由回答などから、パターンや傾向を導き出す。顧客満足度調査やマーケティングで活用される。数値だけでは分からない背景や原因を理解するのに役立つ。
散布図
2つの変数の関係を視覚的に表現するグラフ。縦軸と横軸に異なる変数を取り、データ点をプロットして相関関係を分析する。例えば、広告費と売上の関係などが分かる。点が右上がりなら正の相関、右下がりなら負の相関を示す。
ヒストグラム
データの分布を棒グラフで表したもの。横軸にデータの範囲(階級)、縦軸に出現頻度を示し、データのばらつきや分布の形状を確認できる。正規分布かどうかを判断するのにも使われる。例えば、テストの点数分布の分析などに利用される。
レーダーチャート
複数の指標を放射状に配置し、データのバランスを可視化するグラフ。各軸の長さで強みや弱みを比較できる。例えば、製品の性能評価や人材スキルの分析に使われる。六角形や五角形の形状が一般的。
バブルチャート
散布図にデータの重要度を追加し、点の大きさで情報を表現するグラフ。3つの変数(X軸、Y軸、バブルの大きさ)を同時に示すことができる。市場分析やリスク評価などで使われる。例えば、売上(X軸)、利益率(Y軸)、市場規模(バブルの大きさ)を表すことができる。
パレート図
データを降順に並べた棒グラフと累積割合の折れ線グラフを組み合わせたもの。「80:20の法則」に基づき、重要な要因を特定するのに役立つ。例えば、クレームの原因を分析し、どの問題を優先的に解決すべきか判断できる。品質管理や経営戦略で活用される。
平均値
データの合計をデータの個数で割った値。計算式: 平均値 = (データの合計) ÷ (データの個数)。例えば、テストの点数が 60, 70, 80 なら、(60+70+80) ÷ 3 = 70 が平均値となる。データ全体の代表値としてよく使われるが、極端な値の影響を受けやすい。
中央値
データを小さい順に並べたときの中央の値。偶数個の場合は中央の2つの平均を取る。例えば、(10, 20, 30, 40, 50) の中央値は 30、(10, 20, 30, 40) の中央値は (20+30) ÷ 2 = 25。外れ値の影響を受けにくく、分布の中心を示すのに適している。
最頻値
データの中で最も頻繁に現れる値。例えば、(10, 20, 20, 30, 30, 30, 40) の最頻値は 30。分布の特徴を把握するのに役立つが、複数ある場合や存在しない場合もある。市場分析やユーザー行動の分析でよく使われる。
偏差値
データの標準化指標で、個々の値が平均と比べてどの程度の位置にあるかを示す。計算式: 偏差値 = 50 + 10 × (X - 平均) ÷ 標準偏差。例えば、テストの平均点が50点、標準偏差が10点のとき、得点X=70点なら偏差値は 70 となる。学力評価や競争分析に使われる。
期待値
確率変数の平均的な結果を示す指標。計算式: 期待値 = Σ (各事象の値 × その確率)。例えば、サイコロの目の期待値は (1×1/6 + 2×1/6 + … + 6×1/6) = 3.5。統計分析やリスク管理で用いられる。
順列
異なるn個からr個を順番に選ぶ組み合わせの総数。計算式: nPr = n! / (n-r)!。例えば、5人から3人を並べる順列は 5P3 = 5! / (5-3)! = 60 通り。並び順を考慮する場合に用いる。
組み合わせ
異なるn個からr個を選ぶ方法の総数(順番を考慮しない)。計算式: nCr = n! / (r!(n-r)!)。例えば、5人から3人を選ぶ組み合わせは 5C3 = 5! / (3!(5-3)!) = 10 通り。確率計算やデータ分析に活用される。
ビッグデータ
膨大なデータの集合で、通常のデータベース管理システムでは処理が困難なもの。大量(Volume)、多様(Variety)、高速(Velocity)の3Vが特徴。AIやIoTと組み合わせ、マーケティングや医療、金融などで活用される。
母集団
統計分析の対象となる全データの集合。例えば、日本全国の全高校生の身長データが母集団となる。全体を直接調査するのは困難なため、一部を標本として抽出し、分析することが一般的。
標本
母集団の一部を抽出したデータセット。標本データを分析することで、母集団の特性を推定する。例えば、全国の高校生から1000人を選び、その身長の平均を求める。
標本抽出
母集団から標本を選ぶ方法。適切な抽出方法を選ばないと、バイアス(偏り)が発生し、分析結果が不正確になる可能性がある。無作為抽出や層別抽出など、目的に応じた手法を選択する。
標本サイズ
統計分析のために母集団から抽出する標本の数。適切な標本サイズを選ぶことで、分析の精度が向上する。標本サイズが小さすぎると誤差が大きくなり、大きすぎるとデータ収集コストが増加する。統計的には「標本誤差」を考慮して決定される。
単純無作為抽出
母集団から標本をランダムに選ぶ方法。全ての要素が等しい確率で選ばれるため、偏りが少なく、公平なデータ抽出が可能。例えば、くじ引きのように無作為に100人を選ぶ場合などに用いられる。統計分析の基礎となる手法。
層別抽出
母集団をいくつかの層(グループ)に分け、各層から無作為に標本を抽出する方法。例えば、年代別や地域別に分けてから標本を取ることで、母集団の特徴をより正確に反映できる。特定の層が過小評価されるのを防ぐために利用される。
多段抽出
複数の段階に分けて標本を選ぶ方法。例えば、まず都道府県ごとにランダムに市を選び、その中からランダムに個人を抽出する。この方法を用いることで、調査のコストや手間を削減しながら、代表性のあるデータを得られる。
回帰分析
2つ以上の変数の関係を数式で表す分析手法。特に線形回帰では、y = a + bx という式を用いて、説明変数(x)から目的変数(y)を予測する。例えば、広告費(x)が売上(y)に与える影響を分析するのに使われる。ビジネスや経済学で頻繁に利用される。
決定木分析
データを条件に応じて分岐させ、分類や予測を行う分析手法。ツリー構造を持ち、「もし〇〇なら△△」のように分岐を繰り返し、最終的な判断を行う。例えば、顧客の購買行動を年齢や職業で分類する際に使われる。直感的に理解しやすいのが特徴。
クラスター分析
データを類似度に基づいてグループ化する手法。例えば、顧客の購買履歴を分析し、似た傾向を持つグループに分類することで、ターゲットマーケティングに活用できる。代表的な手法にはk-means法などがある。機械学習やマーケティングでよく使われる。
相対参照
セルの参照方法の一つで、数式をコピーすると参照先が自動的に変わる。例えば、Excelで「=A1+B1」をコピーすると、「=A2+B2」に変化する。データのパターンを効率的に計算できるが、固定したい場合は絶対参照を使う。
絶対参照
セルの参照を固定し、数式をコピーしても参照先が変わらないようにする方法。Excelでは「$」を使い、「=$A$1+B1」とするとA1の値は固定される。特定の値を常に参照したい場合に便利。複数の計算式で同じ値を使用する際に役立つ。
データベース
大量のデータを整理・管理し、効率的に検索・更新できるシステム。リレーショナルデータベース(RDB)やNoSQLなどの種類がある。SQLを使ってデータを操作し、企業の業務システムやWebサービスで広く利用される。データの一貫性や整合性を保つ仕組みを持つ。
主キー(Primary Key)
データベースの表(テーブル)で、各レコードを一意に識別するためのキー。例えば、社員テーブルでは「社員ID」が主キーになる。主キーは重複を許さず、NULL(空の値)も禁止されている。検索やデータ管理の効率を向上させる。
外部キー(Foreign Key)
他のテーブルの主キーを参照するキー。例えば、注文テーブルの「顧客ID」は顧客テーブルの主キー「顧客ID」を参照し、データの関連性を保つ。外部キー制約を設けることで、データの整合性を確保し、不要なデータの削除を防ぐ。
選択(Selection)
データベースの表(テーブル)から特定の条件を満たす行(レコード)を抽出する操作。SQLでは SELECT * FROM テーブル名 WHERE 条件; のように記述する。例えば、売上テーブルから「売上が100万円以上」のデータだけを抽出する場合に用いる。データのフィルタリングに使われ、分析やレポート作成に役立つ。
射影(Projection)
データベースの表から特定の列(フィールド)のみを抽出する操作。SQLでは SELECT 列名 FROM テーブル名; のように記述する。例えば、社員テーブルから「社員ID」と「氏名」のみを取得する場合に用いる。不要な情報を除いてデータを整理し、処理の負荷を軽減できる。
結合(Join)
複数のテーブルを関連付けて、一つの結果として出力する操作。SQLでは INNER JOIN や LEFT JOIN などの種類がある。例えば、顧客テーブルと注文テーブルを結合し、「どの顧客がどの注文をしたか」を取得する場合に使う。リレーショナルデータベースの強みであり、データの関連性を活用する際に重要な技術。
正規化(Normalization)
データの重複を排除し、整合性を保つためにデータベースを設計する手法。例えば、顧客情報を注文テーブルに直接書かず、顧客テーブルを別に作ることで、データの一貫性を保つ。第1正規形(1NF)から第5正規形(5NF)までの段階があり、通常は第3正規形(3NF)までを適用することが多い。冗長性を減らし、更新時の矛盾を防ぐ目的で行われる。
トランザクション処理(Transaction Processing)
データベースにおける一連の処理をまとめて管理する仕組み。例えば、「銀行の口座振込」は「Aさんの口座から出金」「Bさんの口座へ入金」の2つが完了して初めて成功とする。この処理が中断するとデータの不整合が発生するため、ACID特性(原子性・一貫性・独立性・耐久性) に基づいて処理される。SQLでは BEGIN TRANSACTION、COMMIT、ROLLBACK などのコマンドを使う。
排他制御(Concurrency Control)
複数のユーザーやプロセスが同時にデータベースへアクセスする際、データの整合性を守るための仕組み。例えば、2人が同じ商品を同時に購入しようとすると、在庫データが矛盾する可能性がある。このような競合を防ぐため、データにロックをかけたり、処理の順番を調整したりする。主な方法として 楽観的排他制御 と 悲観的排他制御 がある。
ロック(Lock)
データの同時更新を防ぐために、一時的にデータを保護する仕組み。例えば、あるユーザーが商品情報を更新中に、別のユーザーが同じ商品情報を変更できないようにする。共有ロック(Read Lock) と 排他ロック(Write Lock) という2種類があり、トランザクション処理の一環として利用される。適切に管理しないと、デッドロック(互いに待ち状態が発生)になる可能性がある。
ロールバック(Rollback)
トランザクション処理が失敗した場合に、データを元の状態に戻す操作。例えば、「銀行振込でAさんの口座から引き出したが、Bさんの口座に入金する前にエラーが発生した」場合、Aさんの引き出しもキャンセルする。SQLでは ROLLBACK; コマンドを使用する。データの整合性を保つために不可欠な仕組み。
ロールフォワード(Rollforward)
データベース障害が発生した際に、バックアップデータとログを使って、最新の正常な状態までデータを復元する操作。例えば、データベースがクラッシュした場合に、定期的なバックアップデータと、その後の変更履歴(ログ)を適用して復旧する。SQLでは リカバリプロセス の一環として実施される。ビジネスの継続性を保つための重要な技術。
Ankiアプリ用データ
以下のサイトより、Ankiアプリで活用できるITパスポートのストラテジ系+マネジメント系+テクノロジ系の暗記データがダウンロードできます。
パスワードは半角で、「shirakawa」です。
ぜひ、学習にご活用ください。
ファイル名:ITパスポート(ストラテジ系、マネジメント系、テクノロジ系).apkg
上のファイルがうまく適用できなかった場合はこちらをダウンロードしてみてください。
ファイル名:コレクション-2025-02-18@14-19-12.colpkg
Ankiアプリの使い方
Ankiアプリの簡単な使い方をご紹介しています。ぜひ、ご一読ください。
合わせて読みたい
参考文献
今回、学習用として参考にさせていただいているのがこちらの教本です。AmazonではPDF版もあるようです。セクションごとにQRコードを読み取って小テストを受けることができ、学習の確認もできて頼りがいのある一冊です。また、YouTubeでの解説動画もありますので、そちらも参考に学習を進めると良いでしょう。

コメント