カテゴリー
統計・経済

なぜ、選挙で開票率が0%なのに当確が出るのか?

選挙で開票率が0%、もしくは開票がはじまって間もないのに当確が出る理由は、統計的なデータを元に当確を算出しているためです。
各局は、出口調査により、選挙が終わり投票所から出てきた人に無作為でアンケートを取り、何人がどの候補者に投票を行ったのか?のデータのサンプルを収集します。
このサンプルを元に計算が行われ、その精度は多くの人が考えるものより高いものになります。

お味噌汁のたとえ~一口味見をすれば当確がわかる~

なぜ、選挙で開票率が0%なのに当確が出るのか?をわかりやすく説明するために、よく使わられる例えに「お味噌汁の味見」の話があります。

数学者の秋山仁先生に「開票5%で当確がでるのがおかしい」といったところ、秋山先生が「それが統計学ですよ。少ないサンプルで全体を見る。これが統計学です」とおっしゃる。
「でも先生、そんなこといっても5 %ですよ」
「じゃああなたね、大きな鍋一杯にみそ汁作って、味見するとき、どんぶりばち一杯に入れてぐーって全部飲む?」
「・・・小皿ですよね。」
「それが5 %よ。」

立川志の輔さんの落語のマクラということなのですが、ようは、一すくいの味噌汁からなべ全体の味が予想できるように、無作為に取り出したデータがあれば、すのサンプル数が全体のほんの一部でも、全体の姿を予測することができる、ということです。

実際には、地域ごとに強い政党の色があることや、支持組織の存在がある故に単純に出口調査をすれば良い、というものではないのですが、大枠の理論としてはこの考えが「なぜ、選挙で開票率が0%なのに当確が出るのか?」への答えになります。

選挙で開票率0%の状況で当確を算出するのに必要なデータ数

必要なサンプル数の考え方の詳細はこちらの記事で解説をしています。

数時感としては次の図表のようになります(白いエリアが必要なサンプル数)。

許容誤差5%、信頼度95%で設定するならば、約400のサンプルがあれば統計的には事足りることがわかります。

用語の意味は次の通りです。

許容誤差:母集団からどの位のズレがあるのかの可能性を示す指標

例えば、許容誤差5%の設定で、ある事象への好感度が70%だとした場合、その「ある事象への好感度」は「65%~75%」ということになります。
ようは、アンケートからえられた結果が「どれだけ実態からかけ離れているか」を示します。
アンケートの目的にもよるのですが、通常は許容誤差5%が設定されます。

信頼度:えられたサンプルが、どれくらいの確率で許容誤差内の結果におさまるのかを示す指標
例えば、信頼度95%の設定で、回答者数が100人、上記の許容誤差5%、ある事象への好感度が70%の場合、「100人中95人」は「ある事象への好感度が65%~75%」ということになります。
アンケートの目的にもよるのですが、通常は信頼度95%が設定されます。
なお、信頼度は許容誤差以上に、必要なサンプル数に与える影響度(感度)が大きいので、無理に高めようとする場合には、よく検討が必要です。


統計を親しんでいる人にすれば当たり前の話なのですが、多くの人にとって見ればわかりにくい考えでしょう。

お味噌汁のたとえなら、感覚的にこの統計の話が理解できるはずです。

なお、味噌が固まっていて十分に混ざっていない場合はどう考えるの?という話が、正に統計のだいご味で、「よくかき混ぜる」ステップが必要です。
一定の誤差も考慮した上で無作為にサンプルを抽出する、という部分ですね。

カテゴリー
統計・経済

高年収の人は歩くスピードが速いという話~年収と相関がある統計諸々~

年収が高い人ほど、歩行速度が速く、早歩きの割合が高い、という統計があります。
背景として、高年収の人は時間を大切にする、表現を変えるとせっかちである割合が高く、そのような結果になるのであろうとされています。

今回は年収と相関がある統計について、いくつか紹介をしていきます。

高年収の人は歩くスピードが速い

ドコモ・ヘルスケア株式会社がウェアラブル活動量計により収集した統計データにより、年収が高い人ほど、歩行速度が速く、早歩きの割合が高い、ということが示されました。

https://prtimes.jp/main/html/rd/p/000000022.000016519.html

対象は19歳から77歳の男女で総計1,229人の統計データとなります。
調査では、ウェアラブル活動量計のデータと、アンケート調査を元に分析がなされました。

ドコモ・ヘルスケア株式会社「年収が高い人ほど歩くスピードが速く、せっかちであることが判明!?」より

年収1,000万円以上の人の平均歩行速度は3.13Km/hであり、日本人平均の400万円以上500万円未満の2.69Km/hに比べると、約16%も歩くスピードが速いことがわかります。

早歩きをすれば年収があがる、という因果関係の話ではありませんが、高年収の人が如何に時間を気にしているのか、示唆されます。
(調査では、「年収が高い人ほど、せっかちな傾向が!?」としています。)

高年収の人は朝食を大事にする傾向がある

もう一つの調査はスムージーのメーカーによる、若干のポジショントークが入ったものになりますが、一定納得があるものです。

https://prtimes.jp/main/html/rd/p/000000001.000026950.html

調査では、20代から50代の男女総計500人を対象に、年収と朝起きる時間、食事に対する意識等について調査がされました。

株式会社アントレックス「年収800万円以上の人の7割は朝の時間に余裕がある!」より

その結果、年収が高い人ほど、朝は早めに起きる傾向があること、また朝ごはんを一番大事にする傾向があること、がわかりました。

朝食は一日の活力の源であり、一定納得が行く話です。
(もちろん、そもそも活力があるから朝を早く起きれて朝ごはんを食べられるだけの余裕があるのじゃないか、という見解もあり得ます。「やる気」が一定程度、遺伝子に左右されるという示唆も別の学術的研究であり、その時点からして差が出てしまっている、という可能性は考えられます。)

高年収の人は読書量が多い。

こちらは有名な話です。

https://gentosha-go.com/articles/-/34844

読書量と年収には相関関係があり、富裕層と年収300万円以下の人では次の図の通り、とてつもないまでの開きがあります。

こちらも上述の「やる気」問題が関係している可能性があるにはあるのですが、努力と「成功」には関係性があることが示唆されます。
(高年収であることが必ずしも成功であるとは限らないので、鍵括弧「」で成功という言葉を括っている。)

筆者は次のように主張しています。

時間がないから読書ができないのではなくて、「読書をしないから時間がない」のです。「時間がないから読書ができない」というセリフは、絶対に言ってはいけないことだと思っています。

疑似相関には注意

この種の話を見る時は、必ず疑似相関には注意を払う必要があります。

例えば、年収と体重の関係です。

リンク先のブログ記事では、年収と体重の関係について、疑似相関であることを紹介しています。
歳を取ればとるほど、活動的ではなくなりますし、代謝も落ちるので、必然的に体重が増えやすいと。
一方で、歳を取ればとるほど、年収は高くなる傾向が当然にあります。

THE STRETCH.「トレーナーが知っておきたい相関関係と因果関係の話」より

このような関係を疑似相関であるとして、筆者は注意を促しています。

他にも、年収とワクチン接種の意欲の関係や、年収と語学力の関係も一定の疑いがあります。

JIJI.com「性別や預貯金額も関係? ワクチン接種の意欲調査―経産研究所」より
ITmediaビジネス「やっぱり英語ができる人は、年収が高い?」より

つまり、歳が高いほど新型コロナウイルス感染症の脅威度が高く、積極的にワクチンを接種する動機が生まれます。
そして、繰り返しになりますが、歳が高いほど、年収は当然に高くなる傾向があります。

語学力は一見、グローバルに活躍ができるから、高い年収の仕事につきやすくなる、という風に見える可能性はあります。
しかし、語学力と学歴には一定の相関があることを考えると、この話はシンプルに学歴と年収の、周知の話なのでは無いか?と考えることもできます。

改めて、相関があるからといって、因果関係があるとは限らない、という点は意識したいものです。

分布についても意識したい

もう一つ注意点が。

この種の話をした時に、必ず「私、歩く速度速いけれど年収低いよ。」とか、「俺の知り合いで、全然本読まないで遊び歩いているけれど高年収な人がいるよ。」というような事を仰る方が出てきます。

「そういうとこだぞ」と言いたくなりますが、それはともかくとして、とりあえず、分布というものを意識してもらいたいな、と思います。

いちばんやさしい、医療統計「正規分布とは?わかりやすく標準偏差との関係もガウス分布に関して解説」より

統計データというものは、必ず、このような観測データと生じる確率にバラつきが出て、そのデータ全体の中で平均というものが計算されます。
上述のようなツッコみをされても、まぁ、そういう人もいるだろうね、としか言えないのです。

カテゴリー
ブログ・SNS運営

この半年で、みんなが使っている端末はどう変化した?

当サイトにおける、読者の方が使用している端末に関して、ここ半年の変化をまとめてみました。
新型コロナウイルス影響が顕著に表れています。

なお、当サイトはジャンルが「ビジネス」になりますので、全体としてデスクトップ視聴の割合が大きいであろう事は留意ください。

そのため、本稿の趣旨は、社会の変化が起きると、このように端末の利用動向が変化するよ、この領域関わる方々は、この点も抑えて、各種開発や企画を行った方が良いですよ、という点にあります。

端末区分の変化

緊急事態宣言ですが、概ね4月・5月の二か月間、各自治体で実施されました。

その影響が大きく表れており、3月は30%~40%程度だったPC利用が、4月以降は大きく増加し90%前後となりました。
緊急事態宣言が明けた6月も同様で、PC利用は継続して約90%となっています。
リモートワーク影響がここで大きく出ているのですね。

7月・8月は、元の勤務形態に戻ったのであろう会社も出てきて、PC利用は80%~90%となっています。

なお、タブレットはほぼ使用されていない状況です。

使用OSの変化

OSの変化も、概ね端末区分と類似しています。

こうしてみると、ビフォー・コロナのiPhoneの存在感の大きさを感じます。
50%超を占めており、移動中等での閲覧が多いことが想定されます。

これが緊急事態宣言後、リモートワーク推奨が行われた後は激変し、ほぼほぼWindows一択、という状況になります。
ビジネス・ユーザーが多い事は容易に想像でき、ビジネスの現場ではWindowsがメインで使われている事の証左と言えます。

なお、7月以降でモバイル端末の利用が多少回復した形になったわけですが、比率で見た時にiPhoneの存在感が小さくなったように感じます。
もしかしたら、ですが、高額なiPhoneの離反行動が起き、価格の安いアンドロイド端末の割合が増えたのかもしれません。

Macの存在感は7月以降も相変わらず無い感じです。

ブラウザの変化

さて、驚愕なのがブラウザの使用動向。

インターネットエクスプローラー!!!
ちょっとコメントを避けたい感じですね。
ビジネスの現場における、インターネットエクスプローラーの存在感の大きさを感じます、とだけに留めておきます。
(なお、8月になって、エッジの割合が増加傾向を見せています。)

それ以外では、クロームの割合が大きめです。
とは言え、世間一般におけるクロームのシェアが40%~程なので、乖離が激しいです。

モバイル端末は、iPhoneの割合が大きく、その影響もあって7月以降でサファリの比率が大きく増えます。

なお、ファイヤーフォックスはその他に集計される程度の規模感となっています。

モバイル端末メーカーの変化

モバイル端末メーカーの変化ですが、全体感としてはAppleの独壇場です。

4月~6月はノートPCとしても利用できるサーフェスの割合が激増しますが、7月以降は急激な落ち込みを見せています。

その他は、様々なアンドロイド系端末です。

モバイル端末における操作方法の変化

少々特徴的な利用動向がこちらのグラフ。

マウス(タッチパッド含む)による操作比率が結構な割合存在しているのです。

これはサーフェスの比率が大きいです。
Apple製品はマジックキーボードのようなタッチパッド式の操作方法が可能ですが、あまり使われていない印象ですね。

Appleはタッチスクリーン、サーフェスはタッチパッド、と操作方法が明確にわかれている形になります。


本稿の趣旨は、冒頭でも述べたように、社会の変化が起きると、このように端末の利用動向が変化するよ、この領域関わる方々は、この点も抑えて、各種開発や企画を行った方が良いですよ、という点にあります。

提供しているコンテンツ次第で、上記の比率は大きく変わるであろうことは容易に想像できます。

マクロ的な数字は抑えつつ、自分達が運営しているコンテンツやサービスではどうであろうか?どのようなインターフェースが最適であろうか?それらがどのように変化しているのか?ということは抑えていきたいものです。

カテゴリー
統計・経済

新型コロナ感染者数が再増加している件について

新型コロナウイルスの感染者数が再び増加し、不安に思われている方も多いでしょう。
ただ、結論として不安に思う必要はありません。
その理由を解説していきます。

なお、感染されてしまった当事者、そのご家族、親族の方々。
持病等があり不安に思われている方などを貶める意図は全く無いので、ご了承ください。

単純に検査数が増えている

「過去最多」

こんな言葉が踊っています。

特に東京の数は凄いです。

東洋経済オンラインのまとめより

ただ、冷静に資料を見て欲しいのです。

こちらはPCR検査人数の推移です。

新型コロナウイルス感染症対策サイト

東京のPCR検査人数ですが、直近は、3月の10倍超、4月比でも約8倍の数になっています。

つまり、検査が増えたのだから検出される人数も増えるよね,というだけの話なのです。

(後、新宿区の感染者への見舞金10万円、これは逆効果ですね。)

偽陽性(陰性感染者)の存在

以前にこちらの記事でも解説した話ですが。

PCR検査は高感度の検査技法ではありますが、100%の感度があるわけではありません。
仮に、PCR検査を感度70%・特異度99%、感染者総数を5千人とし、10万人を対象に検査した場合ですが、次の図のように感染していないが陽性とでる方や、逆に感染しているのに陰性とでる方が発生します。

このように、1,500人の感染しているのに陰性と出た方、逆に950人の感染していないのに陽性と出た方、つまりエラーが発生するのです。

今現在もこの状況は発生しているはずで、「陽性」と出た方で、一体全体、どれだけの非感染者が含まれているのでしょうか。

何を指標にして警戒すれば良い?

シンプルに重症者数で見るのが良いのではないでしょうか。
こちらは、全国の重傷者数の推移です。

このグラフを見る限り、大きな問題があるようには思えません。

必要なこと

この状況下で必要なこと、それは当たり前のシンプルなことです。

人混みの多い場所ではマスクをする。
外出したら、手洗い、うがい、洗顔、入浴、着替え、のこれらをする。

日本では、肺炎による年間の死者数が約100,000人、インフルエンザによる年間の死者数が約3,000人、残念ながら出てしまいます。
(インフルエンザに関しては、ワクチンも特効薬も存在するのに。)

つまり、新型コロナウイルス感染症に限らず、当たり前にこれらのことをしましょう、という話です。

下記記事も参考にしてみてください。

カテゴリー
経営企画

人類をバグらせた新型コロナウイルスの真の恐怖

新型コロナウイルスの本当の恐怖は、その病状にはありません。
人類をバグらせて、それにより起きる間接的な被害にこそ真の恐怖があります。
間接的な被害とは、人々のパニックであり、経済被害であり、そして派生的に起きる人命の被害です。

新型コロナウイルスの現時点での事実

まず、世界の新型コロナウイルスによる死者数は40,000人を超えました。
日本国内では(あくまでもイギリス船籍であるクルーズ船も含めて)78人となっています。
どちらも2020年4月1日現在です。

比較対象として考えてみるのがインフルエンザと肺炎です。

インフルエンザは、世界の死者数が年間約500,000人となっています。
日本国内での死者数は年間約3,000人です。

肺炎は、世界の死者数が年間約4,000,000人となっています。
日本国内では年間約100,000人です。

誤解の無いように言及しておくと、人数の大小での良し悪しを語りたいわけではなく、純粋に客観的な事実としての脅威度について語りたく、数字を出しています。

上記の数字(世界)をグラフに表現すると次のようになります。

この通り、現状として新型コロナウイルスの脅威は極めて限定的なはずなのです。
もちろん、各国の封じ込めの努力の結果でしょうし、これからも誠に残念ながら指数関数的に増加していくでしょう。
そのため、単純比較はできないのは間違いがないのですが、少なくとも現状でている数字から考えて、ここまで脅威と考えるのが正しいのか?と、どうしても疑問に考えてしまうのです。

これから訪れる実害

これから訪れる実害を考えていきます。

おそらく既に起きているであろう医療の問題を最初に指摘します。
各所で言われているとおり、医療の現場の混乱には、その現場に携わる方々に敬意を表する以外のことができません。
日本国内ではPCR検査に携わる方に対する圧力を考えると、こちらも頭を下げるしかありません。
臨床検査技師の人数には限りがあるなか、具体的な施策が無い中、検査数を増やせという要望を受けていることでしょう。

単純に現場の方の負担が増大するだけならば、“まだ”良いのですが、統計としては出しづらい実害が発生していることは間違いがありません。
それは、本来適切な医療を受けられた受けるべきであった方々が、新型コロナウイルスの影響により、医療を受けられず、誠に残念な結果になってしまう、という実害です。
これは、医療の現場に「無感染」の関係無い方や、「無症状」の方が押しかけて、限られた医療リソースを食いつぶすことによって起きます。

もう一つ既に起きている実害としてあげられるのが経済です。
すでに、リーマンショック級の経済損失があると、各所で言われはじめています。
リーマンショックと異なるのが、「コントロールがしづらい」という点です。
リーマンショックは「人が起こした」災害ですので、介入の容易性が指摘できますが、今回の新型コロナウイルスは天然の災害です。
発生最初期でしたら、封じ込めの難易度は低いのですが、ここまで拡大してしまうと、都市封鎖(ロックダウン)のような施策を打たねばならず、その弊害として発生するのが経済へのダメージです。
東京においては「外出自粛」となっており、“まだ”ダメージは抑えられている方だとは考えられるのですが、現実として、すでに倒産の危機を迎えている企業が多く存在すると考えられます。

特に実店舗を構えているビジネスを行っている方々は、先が見えない思いを抱えていることでしょう。
SNSを見ていると、多額の借金を抱えた状態で店を畳む覚悟を決めた人をちらほら見かけます。
これによって起きると想定されるのが「自殺者数」の増加です。
実際に統計として出てくるのが来年になると思われますが、倒産ないしは閉鎖する企業・事業所の数と、自殺者数の数字は、間違いなく悪化すると推測されます。

新型コロナウイルスの本当の恐怖

新型コロナウイルスの本当の恐怖は、その病状そのものにあるのではなく、実は上述した「実害」のようなもの、もっと言うとそれを招いた人類に起こした「バグ」にあるのでは、と考えています。

現状の数字を見る限りは、冷静に考えて、通常の風邪やインフルエンザの方が恐ろしいはずです。
人が密集する空間でのマスク着用を心がけ、当たり前に手洗いうがいをし、手指の消毒も行っていれば、新型コロナウイルスの感染も一定程度防げるはず。

そもそもとして新型コロナウイルスを怖がる人たちの中で、普段から、当たり前の感染予防策をどれだけとっているのでしょうか?(なぜ、風邪やインフルエンザを怖がらずに新型コロナウイルスだけを怖がるのか?)
冷静に考えれば、人々に行きわたるだけの物資が世の中にはあるはずなのに、それを枯渇させてしまうような「買占め」はどうして起きるのでしょうか?
なんで、普段冷静な人たちがパニックに陥ってしまうのでしょうか?(顕在化しただけ、という意見もありますが。)

これが新型コロナウイルスの本当の恐怖は、肺炎様病状にあるのでは無く、この人類の「バグ」にあると考える理由です。
このウイルスは、その直接的な症状ではなく、間接的な人類のパニック、経済被害、派生する人命被害を巻き起こしているのです。

この騒動を何とか乗り越えよう、アフターコロナに備えよう

今できることは、何とかこの騒動を乗り越えること、アフターコロナに備えること、かと思います。
経済的実害を受けている事業者は、なんとか変動費を切り詰めると共に、削減できる固定費も限界まで削っていき、なんとか生存をしてください。
幸いにも被害が軽微な事業者は、アフターコロナに備えると良いでしょう。

今回の騒動は間違いなく長期化します。
そして、騒動前(ビフォアーコロナ)と騒動後(アフターコロナ)で、世界は変わっているでしょう。
過去の感染症によって起きた歴史を鑑みても十分に予測できることです。

次回は、アフターコロナを見据えて、どのように考えていくべきか、を考察します。

カテゴリー
統計・経済

アンケートサンプル数の計算方法

企画担当者にとってよく行う調査にアンケートがあります。
その中で、サンプル数の設定はよくある悩みの種です。

サンプル数が少ないと調査の信頼性が下がり、サンプル数が多いとコストが跳ね上がってきます。
ここでは、アンケートを実施する際の適切なサンプル数の設定について解説していきます。


(2020年7月6日追記)選挙で開票がはじまっていない、もしくははじまって間もないのに「当確」報道が出ることが珍しくありません。
これは、統計学的には「400」のサンプルを取得すれば、概ね全体像を把握することができるからです。
「16,000」まで集まれば、ほぼほぼ誤差がなく正解も出せます。

とりあえず結論だけ知りたい人向け

母集団の総数が10,000を超える場合、サンプル数の目安は「400」です。
「400」集まれば十分、と考えて下さい。

なお、母集団の総数が1,000程度の場合は「300」、
100程度の場合は「100」、
10程度の場合は「10」、つまり全調査が必要になります。

用語の意味等、諸々理解されている方は、こちらを見てください。

基本的な用語

ここから、その根拠を理解するための必要な用語知識や計算について解説していきます。

母集団:ターゲットとなる対象の集団全体のこと

母集団数:母集団の対象総数のこと

サンプリング調査:母集団の中から何人かをピックアップして母集団全体の状況を見る調査のこと

サンプル数(サンプルサイズ):サンプリング調査におけるピックアップする対象数のこと

許容誤差:母集団からどの位のズレがあるのかの可能性を示す指標

例えば、許容誤差5%の設定で、ある事象への好感度が70%だとした場合、その「ある事象への好感度」は「65%~75%」ということになります。
ようは、アンケートからえられた結果が「どれだけ実態からかけ離れているか」を示します。
アンケートの目的にもよるのですが、通常は許容誤差5%が設定されます。

信頼度:えられたサンプルが、どれくらいの確率で許容誤差内の結果におさまるのかを示す指標

例えば、信頼度95%の設定で、回答者数が100人、上記の許容誤差5%、ある事象への好感度が70%の場合、「100人中95人」は「ある事象への好感度が65%~75%」ということになります。
アンケートの目的にもよるのですが、通常は信頼度95%が設定されます。
なお、信頼度は許容誤差以上に、必要なサンプル数に与える影響度(感度)が大きいので、無理に高めようとする場合には、よく検討が必要です。

回答率:特定の回答を選択するサンプルの比率のこと

例えば、上記の「ある事象への好感度が70%」の場合は、回答率は70%が設定されます。
ようは、ある程度、回答の傾向がわかっている場合は、必要なサンプル数が減るのです。
ただ、回答傾向は設問内容やターゲットによって変わりますし、基本的には結果がわからない前提でいるはずなので、通常は回答率50%を設定します。
こんな適当な設定でよいのか疑問に思われるかもしれませんが、サンプル数の計算の関係上、50%を設定すると、必要なサンプル数が最大になるため、最も保守的な設定になるのです。

回収率:アンケートを実施した際の回収率のこと、必要なアンケート数に影響する

例えば、不特定多数のアンケートをお願いして戻ってくる想定が10%(10人に1人が回答する)とした場合で、必要なサンプル数が400人なら、4,000人にアンケートを依頼する必要があります。

計算式について

さて、ここで必要なサンプル数を求める計算式を提示します。

それぞれの意味は下記のとおりです。
数値を代入していけば、サンプル数(n)が求められます。

  • n : 必要なサンプル数
  • N : 母集団数
  • z : 信頼度(Zスコアというものをあてはめます。)
  • e : 許容誤差(%での計算なので小数点で計算します、5%なら0.05です。)
  • p : 回答率(%での計算なので小数点で計算します、50%なら0.5です。)

ここで信頼度(z)について簡単に触れます。
zスコアは信頼度の%そのままではなく、統計的に対応する数字をあてはめることになります。
統計学のt分布の自由度∞の数字で、信頼度95%なら1.96、信頼度99%なら2.58というように、一律で決定されます。
参考として、末尾にzスコア一覧を掲載しておきます。

具体的に計算してみましょう。
母集団数Nを10,000、信頼度zに1.96、許容誤差eに0.05、回答率pに0.5と設定し、上記の式にあてはめると、369.9837,,,となるはずです。
つまり小数点以下を四捨五入して、「370」です。

ただ、これを一々計算していては身がもたないので、冒頭でも掲示した、このような必要サンプル数の一覧表を見るのが一般的です。

これを見ればわかると思うのですが、許容誤差や信頼度について、精度を高めようと思えば思うほど、必要なサンプル数が一気に増えてしまいます。
そのため、多くの研究やビジネスの現場では、一定水準で精度を確保しつつ、リーズナブルにできる許容誤差5%、信頼度95%、という数字を設定して計算するのです。

逆に考えると、ざっくりと市況感やニーズ感を掴みたい、というのであれば大幅に必要なサンプル数を減らすことができます。
許容誤差10%、信頼度90で設定すれば、サンプル数「100」もあれば、十分以上に知りたいことの概観を掴むことができます。

具体的な検討ステップ

ここからは、より具体的なサンプル数の算出ステップに関して解説していきます。

¶ 母集団数の設定:母集団の規模はどの程度の大きさなのか?

最初のステップが「母集団数の設定」です。

例えば、福利厚生のサービスを提供している日本の会社において、世の中の労働者にとっての福利厚生へのニーズを調査したいとします。
この場合は母集団としては日本の雇用者となります。
数としては雇用者数全体となり、約6,000万人が母集団数となります。
これは就業者数の中の雇用者数全体となるので、より福利厚生を意識するであろう正社員に限定したい場合は、約3,500万人が母集団数となります。

¶ 目的の設定:どの程度の正確性(誤差と信頼度)を要求するのか?

次のステップが正確性、精度の設定、よりかみ砕きつつ正確に言うと、目的の設定です。

調査の目的が、ざっくり粗々にニーズ感を掴みたいのか、それとも具体的なサービスが既にあってそれに対しての情報が欲しいのか、新規事業があって精度高く設定価格の情報をえたいのか、このような形で、どれくらいの正確性、精度を調査に求めるのかを考えます。

ここで上述の通り、許容誤差と信頼度を設定する形になります。
ここのパラメータを個別に検討することには(こういうと統計の専門家からは怒られるかもしれませんが)あまり意味がありません。
ですのでざっくりと3パターン位で考えるのが良いです。
サンプル数は母集団10,000で考えています。

精度重視:許容誤差5%、信頼度95%(サンプル数約400)

標準調査:許容誤差5%~10%、信頼度95%~90%(サンプル数約70~400)

ざっくり:許容誤差10%~20%、信頼度90%~80%(サンプル数約10~70)

許容誤差と信頼度を設定できたら、回答率は50%で設定すればよいので、そのまま必要サンプル数を算出できます。

アンケート依頼数の計算:どういった対象に依頼し回収していくのか?

最後に、どれだけのどういった対象にアンケートを依頼すれば良いのか?の話になります。

アンケート調査代行会社に依頼するのならば、シンプルに「必要サンプル数は400」と伝えれば良いでしょう。
自社でアンケートを実施する場合は、依頼対象との関係性で回収率も変わるので、依頼数が大きく変わります。

必要サンプル数が400で、回収率が20%であるならば、必要依頼数は2,000になります。

アンケート対象が少数ならば、追いかけも可能ですが、100も超えれば現実的には追いかけが困難になります。
ですので、回収率は10%~20%のレンジ内で堅実に設定するのが良いでしょう。

(参考)AIの導入にあたって、何故、膨大なデータ必要なのか?

AIは、ざっくり言うと、過去の膨大な統計データをもとに、ある何かの事象を自動で判定するものです。

上で提示した通り、アンケートによってえられた結果には、誤差があり、かつ信頼レベルも設定されています。
つまり、精度という観点では、あまり質が高くないのです。
現実の研究やビジネスの中では、そこまでの精度を求めてはいないので、必要なサンプル数の中で検証をしていくわけですが、AIにおいては限られたサンプル数(教師データ)では問題がおきます。

というのも、仮にトータルとしての精度を99%にまで高められたとしても、試行100回につき1回は誤った出力をしてしまうのです。
業務内容にもよるのですが、これでは安心して自動化にAIを組み込むことができません。

そのため、膨大な統計データを用意し、トータルとしての精度を99.99,,,と高めて運用する形になります。
(もしくは、素直に精度が低い前提で業務に組み込みます。どちらかというと、こちらの方が現在の主流ですね。)

(参考)信頼度にあてはめるzスコア一覧

信頼度zスコア
99.9%3.290
99.8%3.090
99.0%2.576
98.0%2.326
95.0%1.960
90.0%1.645
80.0%1.282
70.0%1.036
60.0%0.842
50.0%0.674
モバイルバージョンを終了