【統計学】これから医学研究をはじめるときに知っておきたい統計の知識 -データの種類-

AI関連

学会発表のためにデータをまとめたり、大学院生になって研究をいざはじめるとき、統計の知識が必要になってきます。なんだか難しそうだし、どこから手をつけて良いのやら。ここでは、まずはじめに知っておくべきデータの種類についての知識を解説します。

<strong>ジェネ吉</strong>
ジェネ吉

量的データと質的データを区別しましょう。

はじめに

患者さんの年齢・性別・既往歴・内服歴・採血結果など、臨床にはさまざまなデータが存在ます。何らかの仮説をもとにデータを収集し、それが正しいかどうか検証するとします。そういった場合、“統計学的な検定” を行うわけですが、データには種類があり、それによって使用する統計量や検定方法が変わるので、まずその知識をインストールしておく必要があります。

またこれまで統計的な検定をやったことがない場合だと、SPSSのようなクリック操作で動かせる統計ソフトからはじめてみた方がわかりやすいかもしれません。有料ですが、ライセンス契約している施設もあると思いますので確認してみてください。最後にSPSSの参考文献も簡単に触れておきます。

データの種類

量的データと質的データ

データは大きく「量的データ」と「質的データに」大分されます。

  • 量的データ: 「数値的な意味を持つデータ」で、比率データと間隔データがある
  • 質的データ: 「数値的な意味をほぼ持たないデータ」で、順位データとカテゴリデータがある

数値的な意味をほぼ持たないというのは、【疾患あり: 1 疾患なし: 0】とするように、便宜的に数字を当てはめたものです。

4種類のデータ

比率データでは絶対的な0を持っており、間隔や比に意味があり四則演算が可能です。一方、間隔データには絶対的な0は持っておらず、等間隔なデータですが+-のみが可能です。

【例】30kgの物体は20kgよりも10kg重く1.5倍重いとも言えますが (比率データ)、テストが90点のA君は、60点のB君より30点高いですが、1.5倍賢いことを意味しません (間隔データ)。

質的データは数字を便宜上当てはめているだけなので、数字を足したり引いたりすることには意味がないです。その中でも、順位データは大小関係は持っていますカテゴリデータは便宜上数字を割り振っているだけなので、大小関係はありません

【例】アンケート結果 (5: 大変良い 4: 良い 3:普通 2: 悪い 1:大変悪い) を集計する際に、5と4の差や3と2の差が同じわけではない (順位データ)。一方、性別 (女: 0 男: 1) と区別する場合は特にどちらの方が良いという方法は入っていない (カテゴリデータ)。

おすすめ勉強法

データの種類を意識すると、どのような情報を含んでいて、どういった計算に意味があるのか把握することができます。集団Aと集団Bに統計学的有意な違いがあるを調べる場合、量的データでは “差” の検定を行い、質的データは “割合の違い” を検定することになります。

今後医療者が統計をはじめたときに気をつけたいポイントなどを随時取り上げて行きたいと思いますが、入門者用の書籍にさらっと目を通しておくと、何となく大事なところを意識しながら進めていくことがおすすめです。はじめは難解な数式を使わずに概要だけ説明してくれるものを見てみてはいかがでしょうか。自分は、「医療統計解析使いこなし実践ガイド~臨床研究で迷わないQ&A (対馬栄輝著、羊土社)」を読みました。

統計ソフトを使って実際にやってみる

最低限のことだけ確認したら、実際のデータを使って課題に取り組んでみましょう。プログラミングまでいきなりやるのはハードルが高い場合や、そもそも統計解析だけを目的にしている方は、統計ソフトを使うのが最も取り組みやすいと思います。

SPSSは広く使われている統計ソフトで、自分もはじめての統計解析はこちらで行いました。ソフトウェア上でボタンをクリックしていくだけで操作できるので取り組みやすいですし、参考になる書籍もたくさん出ています。有料ですので、ご自身の施設で利用可能かは確認してみてください。

自分のまわりではほとんどの先生が、「SPSSで学ぶ医療系データ解析 第2版 (対馬栄輝著、東京図書)」を参照しながら操作していました。統計的な解説だけでなく、実際の操作手順も詳しく書いてあるためおすすめです。

まとめ

今回は、医療統計をはじめる際にまず意識しなければならないデータの種類について解説しました。今後自分の経験踏まえてつまづきやすいところなど、お話していければと思っています。

 

Dr. カケダシ

コメント

タイトルとURLをコピーしました