統計用語集

統計用語集です。用語は、随時追加していきます。


高度な分析手法に関する解説はこちら マーケティング・サイエンス入門 分析手法解説

基本統計

1サンプルZ検定
1サンプルZ検定は、母標準偏差(σ)が既知であるときに、平均の信頼区間を計算し、仮説検定を行います。この検定は、正規分布に基づくため、小標本の場合は、データが正規分布またはそれに近い分布から取ったものであるときに最適です。中心極限定理から考えると、大標本に対してこの手続きを行うときは、σの代わりに標本標準偏差を使用します。経験則では、サンプルサイズが30以上のものを、大標本と呼びます。通常、σが未知のときは、Z検定ではなくt検定を行います。
1サンプルt検定
1サンプルt検定は、母標準偏差(σ)が未知であるときに、平均の信頼区間を計算し、仮説検定を行います。 この検定も、サンプルの母集団は正規分布に従っていることを前提としています。中心極限定理によると、サンプルサイズが大きくなればなるほど、この検定の結果は確かなものになります。
2サンプルt検定
2サンプルt検定は、2つの標本の母標準偏差(σ)が未知であるときに、母平均間の差に対して仮説検定を行い、信頼区間を計算するために使用します。この検定も、サンプルの母集団は正規分布に従っていることを前提としています。中心極限定理によると、サンプルサイズが大きくなればなるほど、この検定の結果は確かなものになります。
対応のあるデータのt検定(対応あるt検定)
対応のある観測値間の差が正規分布に従っているときに、その平均の差を検定する方法です。この検定では、母集団の平均差が参照値(通常ゼロ)と異なる可能性があるかどうかを決定するために使用します。
1サンプルの比率検定
1つの二項分布比率を検定します。1サンプルの比率検定は、比率の信頼区間を計算し、仮説検定を行います。
2サンプルの比率検定
2つの二項分布比率を検定します。2サンプルの比率検定は、2つの母集団間の差に対して信頼区間を計算し、仮説検定を行います。
F検定
2つの分散の比を検査してその同等性を決定する仮説検定。一般に片側検定であるF検定では、F分布を使用します。F検定では、観測された統計量が分布の棄却値を超えるかどうかを評価します。観測されたF-統計量が棄却値を超える場合は、帰無仮説を棄却します。
Bartlettの検定
2つ以上の分散を比較する場合に使用され、データが正規分布に起因するときに使用します。Bartlettの検定は正規性からの逸脱に対してロバストではありません。Minitabでは、等分散性の検定の機能で使用されます。
Leveneの検定
2つ以上の分散を比較する場合に使用され、データが必ずしも正規分布ではなくても使用できます。この方法では、サンプル平均からではなく、サンプルの中央値からの観測値の距離が考慮され、小さいサンプルに対して検定をロバストにしています。Minitabでは、等分散性の検定の機能で使用されます。
自由度
自由に変化させることのできる標本データの数。標本の要素数から制約の数を引いたものになります。
詳細は、Minitabニュースレター 2006/10

回帰分析

回帰
単回帰 および 重回帰 を行うために回帰メニューを使用します。これらの回帰では、最小二乗法を使用します。 この手法は、一般最小二乗モデルのあてはめ、回帰統計量の保存、残差の検証、点推定値の作成、予測および信頼区間の作成、適合の欠如の検定を行う場合に使用します。
詳細は、Minitabニュースレター 2008/01
単回帰分析、線形回帰分析
目的変数(Y)と説明変数(X)間の線形関係を調べてモデル化します。目的変数も説明変数も連続変数です。
ステップワイズ
有効な説明変数の探索段階で使用される、変数の自動選択手法の一つです。そのプロセスでは、最も有意な変数を系統的に追加したり、各ステップで有意性が最も低い変数を削除したりします。
ベストサブセット
変数の自動選択手法の一つで、指定の説明変数を使用した最適適合回帰モデルを識別します。サブセットモデルでは、回帰係数を推定し、完全なモデルより小さな変数で応答を予測できます。最初に、1つの説明変数を含むすべてのモデルから始め、次に2つの説明変数を含むすべてのモデルで計算、、、という方法で考えられる説明変数のすべての組み合わせを調べます。
詳細は、Minitabニュースレター 2008/04
適合線プロット
線形および2次、3次の多項式による回帰を求める場合、単一の説明変数の(第2または第3番目)の項を使用した回帰が行われ、散布図と直線(曲線)がプロットされます。多項式回帰は、単回帰モデルを拡張しており、X2乗およびX3乗を説明変数に含むことで、目的変数(Y)および説明変数(X)の間の関係の曲面性をモデル化する1つの方法です。
偏最小二乗回帰(PLS)
説明変数の数をより小さい無相関の成分セットに減らし、元のデータではなく、これらの成分に対して最小二乗回帰を実行する分析方法です。PLSは、説明変数の共線性が高いまたは説明変数の数が観測値よりも多いときに、通常の最小二乗回帰では標準誤差が高い係数が作成されるか、完全に失敗するような場合に特に有用です。
PLSは、主に化学、薬品、食品、プラスチック業界で使用されます。例えば、互いに相関することの多数の変数を含むスペクトル測定(NIR、IR、UV)と、化学組成または他の物理化学の特性との関係のモデル化があります。
R²(R二乗)
1つ以上の説明変数との関係によって説明される目的変数の変動のパーセントです。一般に、R²が大きいほど、データへのモデルの適合度は高くなります。R²は、必ず0~100%の間の値になります。このパーセントは、決定係数または重決定係数とも呼ばれます(重回帰の場合)。
調整済みR²
1つ以上の説明変数との関係によって説明される目的変数変動のパーセントです。モデル内の説明変数の数に応じて調整されます。この調整が重要なのは、すべてのモデルのR²は新しい項が追加されることによって必ず増加するからです。項数の多いモデルは、単に項数が多いという理由で適合性が高くなるように見えます。 ただし、R²で値がいくらか増加するのは、単に偶然によるものです。
予測R²
予測R²は、回帰分析で使用され、モデルが新しい観測値の応答をどの程度良好に予測するかを示します。それに対して、R²は、モデルがデータにどの程度良好に適合するか示します。予測R²を利用すると、モデルの過剰な適合を回避できます。また、予測R²はモデル推定に含まれない観測値を使用して計算するため、モデルを比較する場合は調整済みR²より有効です。過剰な適合とは、モデル計算に使用するデータセットの説明変数と目的変数の関係を説明するはずのモデルが、新しい観測値に対して妥当な予測ができないことを指します。
詳細は、Minitabニュースレター 2010/08

分散分析

分散分析
分散分析(ANOVA)は、目的変数と独立変数(1つまたは複数)の関係を調べ、それをモデル化するという点では、回帰分析に似ています。しかし、分散分析には、回帰分析と異なる点が2つあります。独立変数が質的(カテゴリカル)変数であることと、関係の性質についての仮定が行われない(モデルに変数の係数が含まれない)ことです。つまり、分散分析は、2つの母平均が等しいことを検定する2サンプルt検定を、さらに一般的に拡張し、3つ以上(2つでも可)の平均が等しいかどうかを検定する分析手法となります。
一元配置分散分析
母集団の平均が等しいという仮説が検定されます。この方法は2サンプルt検定の延長で、特に母分散が等しいと仮定される場合に適切です。応答データが1列に積み重なっていて、別の列に母集団を表す水準値が入っている場合、このメニューを使用します。
一元配置(積み重ねていないデータ)
母集団の平均が等しいという仮説が検定されます。この方法は2サンプルt検定の延長で、特に母分散が等しいと仮定される場合に適切です。各群が個別の列に入ったデータに対して、このメニューを使用します。
二元配置分散分析
二元配置の分散分析では、処理が2つの変数(因子)で分類されているデータに対し、母平均が等しいことを検定します。二元配置の分散分析を行うには、データが釣合い型(観測値数が同じ)で、因子が固定因子でなければなりません。
バランス型分散分析
応答に対する複数の因子の効果を調べることができます。この手順では、因子水準の各組み合わせの観測値数が同じ(釣合い型)であることが求められます。釣合い型 とは、すべての処理の組み合わせ(セル)に同じ数の観測値があることを意味します。
平均の分析(ANOM)
平均の分析(ANOM)は、分散分析のグラフ版と言うべきもので、母平均が等しいことを検定します。ANOM は、すべての実験計画の因子が固定因子であるときに、主効果を検定するために開発されたもので、1因子計画を対象としています。ANOMを使用できるのは、一元配置または二元配置の計画で、分散分析の場合と同様、応答が正規分布に従っていると仮定したときです。応答が二項分布かポアソン分布に従っている場合も、ANOMを使用できます。
逐次平方和
分散分析の一般線形モデルで表示されます。逐次平方和は、SeqSS (Sequential Sum of Squares) のことで、タイプⅠの平方和とも呼ばれています。分散分析のモデルにおいて、注目する変数よりも前にある変数がすでに考慮された後で、注目する変数によって説明される変動量を表します。このため、分散分析表に表示される一番最初の変数には、それよりも前にある変数が存在しないため、二番目以降の変数の影響を受けません。
調整平方和
分散分析の一般線形モデルで表示されます。調整平方和は、AdjSS (Adjusted Sum of Squares) のことで、タイプⅢの平方和とも呼ばれています。分散分析のモデルにおいて、他のすべての変数が考慮された後で、注目する変数によって説明される変動量を表します。このため、分散分析表に表示される一番最初の変数は、二番目以降の変数の変動が考慮された後で計算される変動量となります。また、二番目に表示される変数は、一番目やその他のすべての変数の変動が考慮された後で計算される変動量となります。したがって、分散分析表のモデルの最後の項において、逐次平方和と調整平方和は等しくなります。
逐次平方和と調整平方和
変数どうしがお互いに全く関係していない(お互いの変数の相関係数=0、もしくはお互いの変数が直交している)場合、注目している変数が他の変数の影響を全く受けないため、逐次平方和の変動量と調整平方和の変動量は等しくなります。
つまり、2つの変数が完全に無相関になっていれば、逐次平方和の変動量と調整平方和の変動量は等しくなりますが、2つの変数が連続量である場合、完全に無相関になることは考えにくいため(多少なりとも、何らかの誤差の影響を受けるため)、逐次平方和の変動量と調整平方和の変動量は異なるでしょう。また、2つの変数において、調整平方和の変動量がほぼ等しいのであれば、2つの変数は本質的に同じ情報しか提供しないと考えることができます。

管理図

管理図
工程データを時間順にプロットし、共通原因や特殊原因による変動の特定に役立ちます。さまざな変動要因を特定することで、過剰に管理することなく工程に対して処置を行えます。たとえば、コールセンターの平均待ち時間に変動があるとします。このような変動は期待されるものであり、この工程の性質と言えます(共通原因)。それ以外の変動は何らかの影響により予期せず起こるものであり、通常工程の一部ではありません(特殊原因)。
詳細は、Minitabニュースレター 2006/09
一般原因(共通原因)と特殊原因(特別原因)
一般原因とは、工程内の自然変動に寄与する出来事のことです。特殊原因とは、安定性を乱す、通常(または意図的に)工程にはない異常な出来事のことです。一般原因による変動がいずれの工程でもある程度自然発生する場合は、変動の特殊原因を特定して除外することが重要です。
Xbar管理図
サブグループの変数データについて、ある期間における工程平均をプロットします。この管理図は、工程の安定性を調べるために多くの業界でよく使用されます。たとえば、Xbar管理図を使用して、部品の長さ、電話の回数、または入院患者の血圧のサブグループについて、ある期間における工程平均を調べることができます。
R管理図
サブグループの変数データについて、ある期間における工程範囲をプロットします。この管理図は、工程の安定性を調べるために多くの業界でよく使用されます。たとえば、R管理図を使用して、部品の長さ、電話の回数、または入院患者の血圧のサブグループについて、ある期間における工程変動を調べることができます。
S管理図
サブグループの変数データについて、ある期間における工程標準偏差をプロットします。この管理図は、工程の安定性を調べるために多くの業界でよく使用されます。たとえば、S管理図を使用して、部品の長さ、電話の回数、または入院患者の血圧のサブグループについて、ある期間における工程変動を調べることができます。
個別管理図
変数データの個別観測値を時間の経過に伴ってプロットします。この管理図は、測定値をサブグループにグループ化するのが難しいまたは不可能な場合に、工程中心を監視するのに使用します。この状況は、測定費用が高い、生産量が少ない、または製品のサイクル時間が長い場合に生じます。個別管理図は、I管理図とも呼ばれます。
移動範囲管理図
個々の観測値の工程変動を監視するために、経過時間にわたって移動平均がプロットされます。移動平均管理図を使用すると、測定値のグループをサブグループに分けるのが難しいか不可能なときの工程の変動を調べることができます。この状況は、測定費用が高い、生産量が少ない、または製品のサイクル時間が長い場合に生じます。移動平均管理図は、MR管理図としても知られています。
CUSUM (累積和)管理図
時間重み付き管理図の1つのタイプで、各サンプル値の目標値からの偏差の累積和(CUSUM)を表示します 累積値であるため、工程平均のわずかなずれによっても累積偏差値が確実に増加(または減少)することになります。そのため、この管理図は、マシンの磨耗によって少しずつ目標値から離れている工程を検出する場合に特に役立ちます。CUSUM(累積和)管理図上の点は、ゼロ周辺でランダムに変動します。上向きまたは下向きのトレンドがある場合は、工程平均にずれが生じている証拠となるため、特殊原因を調査する必要があります。
併合標準偏差
共通の標準偏差を持つと仮定される場合に、すべての独立したサンプルまたはグループを表す単一の標準偏差を推定する方法です。併合標準偏差は、グループ平均(全体の平均ではない)を中心とした全データ点の広がりの平均です。各グループの標準偏差の重み付き平均です。重み付けを行うと、より大きなグループが全体の推定値に対して比例的大きな影響力を持つようになります。併合標準偏差は、t検定、分散分析、管理図、および工程能力分析で使用されます。

工程能力分析

工程能力
顧客のニーズによって定義される規格を満たすように、製品を生産したり、サービスを提供したりする能力です。たとえば、コピー機の製造会社は、紙詰まりを防止するために幅が32.523~32.527cmのゴム製ローラーを生産する必要があります。工程能力分析により、これらの規格に対する製造工程の適合度を明らかにし、工程の改善点を見極め、製造会社の能力向上を支えることができます。
詳細は、Minitabニュースレター 2006/07
工程能力指数
工程が規格を満たしているかどうかを測定する指標で、規格広がりと工程広がりの間の比率を計算することで得られます。一般に、CpとPpが高いほど工程能力が高くなります。CpとPpを計算するには、上方規格限界および下方規格限界が分かっている必要があります。
CpとPpをベンチマーク値と比較して工程を改善するかどうかを判断します。多くの業界でベンチマーク値1.33を使用しています。指標値がベンチマーク値より小さい場合は、工程を改善する必要があります。
Cp
Cpは、サンプルが合理的なサブグループ、つまりサブグループ間のシフトおよびドリフトが取り除かれたと仮定した場合の工程能力を表していることを認識します。そのため、サブグループ内変動を使用して工程広がりを計算します。
Cpk、CPU、およびCPL
サブグループのデータで計算される潜在的な工程能力の測度です。これらを使用して工程平均と規格限界の距離を測定し、工程広がりと比較します。
  • CPLは、工程平均が下方規格限界にどれだけ近づいているかを測定します。
  • CPUは、工程平均が上方規格限界にどれだけ近づいているかを測定します。
  • CpkはCPUとCPLの小さい方の値です。
Pp
Ppではサブグループは無視され、工程全体の変動が考慮されます。全体の変動は、サブグループ間で発生するシフトやドリフトが含まれるので、長期にわたる工程能力を測定する場合に有効です。PpがCpと大きく異なる場合は、サブグループ間に有意な変動があると結論します。
Ppk、PPU、およびPPL
全体的な工程の標準偏差とともに計算され、全体的な工程能力を測定します。これらを使用して工程平均と規格限界の距離を測定し、工程広がりと比較します。
  • PPLは、工程の平均が下方規格限界にどれくらい近いかを測定します。
  • PPUは、工程の平均が上方規格限界にどれくらい近いかを測定します。
  • Ppkは、PPUとPPLのうち小さい方の値です。
PPM(Pars per Million)
100万個の部品に対して発生する規格外部品の数です。たとえば、ファストフードショップの店長が、1000人の顧客のうち20人が3分以上待たされることを確認しているとします。

 PPM = ( 20 * 10,000,000 ) / 1,000 = 20,000

これは、100万人の顧客のうち2万人がサービスを受けるのに3分以上待つことを意味しています。

測定システム分析(ゲージ分析)

測定システム分析
測定システムを評価し、データの信頼性を判定する方法です。MSAは、全体工程の変動がどの程度測定システムの変動に起因するのかを特定するのに役立ちます。測定システムには、データ収集手順、ゲージ、その他の検定装置を含めることができます。測定システムの評価は、測定システムが正確で厳密であることと、データが信頼できることを実証するためのものなので、管理図の作成、工程能力分析、またはその他の分析の前に実行する必要があります。
詳細は、Minitabニュースレター 2006/11
ゲージR&R分析
測定システムの精度を評価し、測定システムの反復性と再現性を合わせて推定する測定システム分析方法です。ゲージR&R分析では、測定システムの変動性が工程変動性と比べて小さいかどうか、測定システムの変動性はどの程度作業者間の差に起因するのか、および測定システムには異なる部品を識別できる能力があるのかどうかを調べることができます。
反復性、繰り返し性
反復性は、1人の検査者が同じ部品を同じ装置で測定したときの変動を示します。
再現性
再現性は、異なる検査者が同じ装置で同じ部品を測定したときに生じる変動を示します。
ゲージの線形性と偏りの分析
測定システムの偏りと線形性を評価する測定システム分析(MSA)方法。ゲージの線形性と偏りの分析では、標準と比べて測定システムに偏りがあるかどうか、および測定値の範囲全体で同じ偏りがあるかどうかを調べることができます。
属性の一致性分析
複数の検査者による主観的な名義評定または順序評定の一致性を評価して、測定システムが部品を誤って分類する可能性を判断するのに使用します。計数ゲージR&R分析とも呼ばれます。

実験計画法

実験計画
入力変数または因子を意図的に変更して応答を観測する一連の実行、または検定のことです。実験計画は、複数の因子を同時に変更することで有意義な結果をすばやく取得し、因子が応答とどのように交互作用しているかをプロットできるため、工程を改善するための有効な方法です。
要因計画
複数の因子が工程に及ぼす効果を同時に分析できる計画実験のタイプです。実験を実施する際は、1回に1つずつではなく同時に複数因子の水準を変更すると、因子間の交互作用も分析できます。
2水準要因計画
各因子が、中心点を数えずに2水準しかない実験計画です。2水準要因計画は、実験の方向性を見定めるためによく使用されます。
Plackett-Burman計画
多くの要因を低コストで調べることのできる分解能Ⅲの2水準要因計画です。Plackett-Burman計画は、実験の初期段階で最も重要な因子を特定するために使用されます。通常、8つ以上(最大47)の因子が使用されます。
応答曲面計画
応答についてある程度理解しており、より最適な応答を探るために役立つ高度な実験計画手法です。応答曲面計画は、特に応答に曲面性が存在すると思われる場合など、要因計画を使用して重要な因子を決定した後に、モデルをさらに細部まで定義するためによく使用されます。
中心複合計画
応答曲面計画の一種です。完全2次モデルを適合させることができます。これらの計画では、適正に計画された因子実験からの情報を組み込むことができるため、計画で連続的な実験を行う必要がある場合によく使用されます。
Box-Behnken計画
応答曲面計画の一種です。一般に計画点が少ないため、同じ因子で比べた場合に中心複合計画よりも少ないコストで実行できます。この計画では、1次係数と2次係数を効率的に推定できますが、因子計画からの実行を組み込むことはできません。
混合計画
複数の成分で構成される生成物を調べるための応答曲面計画です。成分の比率、工程条件、または混合量によって変化する生成物の特性を調べるには、混合計画を使用します。Minitabでは、3つの計画(単体重心、単体格子、および極頂点)を作成することができ、次の3種類の実験を分析できます。
タグチ計画
市場環境において高い一貫性を示す製品または工程を作ることができる実験計画法です。 タグチ計画では、変動を生じさせるすべての因子を制御するのは実際には不可能であることを、あらかじめ認めています。これらの制御不能因子は、雑音因子(ノイズ)と呼ばれます。タグチ計画では、ノイズの影響を最小限に抑える制御可能な因子(制御因子)の特定を試みます。実験中、ノイズを操作して応答の変動を強制的に生じさせ、製品または工程をロバストにしたり、ノイズによる変動の影響を受けにくくしたりするような最適制御因子を見つけます。