比較平均數的檢定有兩種,一種叫做獨立樣本t檢定,另外一種叫做成對樣本t檢定,到底要用哪一種呢?
這個問題的答案就在於是否是"相同實驗個體"! 如果你想要比較兩個班級的期中考成績平均數是否相同,妳兩個班各抽一些人各30人,在這個情境中,一個人只會在一個班級有成績,不會同時在兩個班級都會有成績,這個時候就不是相同實驗個體..不同人的分數理論上是獨立的。 如果你想要看一個新的教學方法是否能改善同學的學習成效,引入此教學方法之前,妳給學生做了一個測驗,然後開始引入教學方法教了一個學期,在期末又做了一個相同的測驗,妳想看是否這個班級期末測驗的平均數大於期初測驗,但是妳只從班級裡面抽了30位同學,這個時候,妳會發現一個人會有兩個成績,一個是改變前,一個是改變後,此種情況就是相同實驗個體,某一個人的前測分數會和後測分數相關,因為都是同一個人。 當相同實驗個體時,表示不獨立,有相依,所以要用成對樣本t檢定 當不同實驗個體時,表示獨立,就要用獨立樣本t檢定 好好想想吧,這個概念很重要喔! 以後我們會延伸到進階版,也就是不只兩群的情況..以後再說吧! 一起簡單學做的好! 😊😊😊 #鬍鬚曾統計顧問 #基礎統計 #簡單學做的好 #統計基礎 #假設檢定
0 評論
上次看到同學在做專題報告時,都會將同意不同意的問題和一個人口統計變數去跑交叉,這到底可以不可以?
首先,交叉分析是針對兩個類別變數去看關聯的,而剛剛同意不同意的問題常常被視為是連續的變數,雖然說將連續視為類別也不是絕對錯(連續可以分解成類別),但是就是有點大材小用了一點,明明可以用更高段的統計分析,卻因為將連續是為類別,現在只能用低等統計分析... 如果這題同意不同的題目是問: 我認為我喜歡這個品牌 同學就會做以下分析: 男生中最多人選同意 女生中對多人選普通 然後有個卡方檢定會說性別與這一題有顯著關聯.. 但是其實,我們可以算出男生的平均與女生的平均,然後透過T檢定去比較是否在母體男生平均與女生平均有顯著差異,這樣我們可以知道更多資訊! 在統計學中,T檢定相當威,而剛剛那個卡方檢定只是個無母數檢定,比較廢..但是因為有時候我們要看的是兩個類別變數是否有關連,我們還是會用卡方,但是如果,其實你有一個變數是連續,一個變數是類別,那你就沒有必要故意耍廢,將連續變成類別,然後用比較不精緻的統計方法..... 所以在剛剛那個問題情境下,我們應該要算兩群人在那個問題的平均數,然後用T檢定去比較,而不是用交叉表...當然,如果現在你有另外一個類別變數叫做職業,然後有很多類別譬如10種,那你就要做變異數分析囉(ANOVA)! 記得不要大材小用..故意耍廢..... 最後來講甚麼時候要用哪一種分析,其實就看你的變數類型是連續還是類別來決定!!! 看兩個類別變數的關聯→用交叉表卡方檢定 一個變數是類別一個是連續,類別是自變數,連續是應變數→用變異數分析(當類別有三群以上)或是獨立樣本T檢定(當類別只有兩群) 一個變數是連續,另外一個也是: 用迴歸或是相關分析! 一起簡單學做得好! 😎😎😎 #簡單學做得好 #基礎統計 #交叉分析 #SPSS #鬍鬚曾統計顧問 在講這個議題前,我們就先複習一下交叉表相關的概念!
交叉分析是將兩個變數的值交叉,一邊放欄,一邊放列,其實就可以看出是否一個變數值的分配在另外一個變數下有所不同... 譬如,一個變數是性別,值有兩個,1是男生,2是女生,另外一個變數是最常來這家店的動機,有四個值,1是單純吃飯,2是朋友聚會,3是自修閱讀,4是其他。我們就可以將"性別"與"常來動機"進行交叉分析,比起單純的次數分配,交叉分析提供更細緻的資訊。 如果是次數分配: 可以得知性別中男生有多少人,女生有多少人,還可以知道所有樣本中,男生與女生的占比;又可以得知常來動機那四個分別有幾個人,也可以知道所有樣本中,四個動機的占比!! 如果是交叉分析,我們還可以知道更多!!! 男生中: 四個動機的比例 女生中: 四個動機的比例 也可以反過來, 單純吃飯中,男生與女生的占比 朋友聚會中,男生女生的占比 自修閱讀中,男生與女生的占比 其他中,男生與女生的占比 然後其實這也是個描述統計,其實交叉分析的結果只適用於描述這個樣本,並不能類推到母體,但是很多人都會寫錯... 假設我們現在的母體是所有會去速食店的消費者,那很多人就會根據剛剛那個交叉表的結果說,所以速食業的男性消費者比較會是單純用餐,女性消費者比較會是朋友聚會這種結論... 但是這其實是錯的! 要針對母體做這樣的結論,我們其實是要做假設檢定.... 也就是我們不能只看交叉表看到男生與女生常來動機比例不同,就下這樣的結論...因為我們這只是樣本描述,我們並不是針對母體在描述...所以若要知道是否在母體中男生女生常來動機不同,我們就必須要做"假設檢定",因為假設檢定就是用樣本推論母體.. 在這裡,我們就會用卡方檢定,因為卡方檢定就是看兩個類別變數是否有關連,如果發現有顯著,我們就可以有證據說,速食業的消費者的性別與常來動機有顯著關聯,因此,看常來動機的分配時,就應該男生女生分開看!! 以上樣本與母體的差別,一定要牢牢記住,才不會在寫報告或論文時做出過於誇張的論述!! 下次,我們將分享另外一個學員們常犯的錯誤,將同意不同意的題目做交叉分析! 標準化就是將一個變數的值扣掉它的平均數再除以它的標準差,標準化後變數的平均值為0,標準差為1。標準化的用處是什麼呢?
當你有兩個變數,兩個變數單位不同,你很難知道在這個水準上到底是好是不好!譬如,阿景身高180,體重75,在這個資訊上你可以知道阿景的身高是偏高還是偏低,體重是偏重還是輕嗎? NO! 這時候標準化就有幫助! 假如標準化後,身高1.1、體重1.5,這就表示相較於全部樣本,身高在其平均數以上1.1個標準差,體重在其平均數以上1.5個標準差,所以阿景在體重上表現比較傑出,也就是相較於全部樣本比較肥!(確實也是如此...) 什麼時候會做標準化? 當你變數間單位不同,為方便詮釋就要進行標準化,消除單位的影響。 譬如、用工作年資與人格特質去預測服務績效,工作年資與人格特質單位不同,就必須進行標準化。 另外一種常見的情況就是尺度不同,兩個變數,一個是產品品質,另外一個是顧客滿意度,前者用1-5分去評,後者用1-7分去評,這時應該就要標準化了! 對我來說,標準化就是一種消除單位影響,並和整體比較的概念... 對你們來說呢? 一起簡單學,做得好! 😎 #鬍鬚曾統計顧問 #基礎統計 #統計基礎 迴歸分析常提到簡單迴歸,但是別被唬了,簡單迴歸可一點也不簡單,他之所以稱為簡單,是因為他只有一個自變數,去影響一個應變數。 如果你有兩個以上的自變數,那就會變成複回歸或多元迴歸。如果這時候再加上很多應變數的話,此時稱為多變量迴歸。
實務上最常用的就是複迴歸了,我們不會只想知道一個自變數對一個應變數的影響,我們會想知道很多自變數對應變數的相對影響。 行銷4p為產品、價格、通路與推廣,我們不太可能只想知道是否產品品質會影響銷售量,是否價格會影響銷售量等等 我們比較想知道當這四個都在模式中時是否都能影響銷售量,並且想知道相對影響力。得知相對影響對我們資源分配就會很有幫助,假設我得知產品品質最能影響銷售量,我的資源當然就是放多一點再提升這個部分。但是迴歸的估計常常會遇到問題,特別是當自變數有高度相關時,這個議題我們之後再說,今天你知道了迴歸基本的類型,是按照自變數與應變數多少去分的,好好想想吧! 你們應該也有用過迴歸分析吧,你們常用的情境是什麼? 我好想知道喔,邀請您在下面舉一些例子(什麼自變數,什麼應變數),讓我們開開眼界吧! j😀 推論統計就是用樣本特性去推論母體特性的統計技術,這也是統計學最強大的地方,可是有時候推論統計也是無用武之地的!
想一下這個情境: 老師在考完期中考後使用統計軟體分析學生的成績,班上有50位學生,然後老師就開始講本次考試大家的平均數、標準差阿,中位數阿等等,然後忽然間老師開始用推論統計告訴你說: 男生的成績顯著高於女生,坐在前面的同學之成績顯著高於坐在後面的同學 你心中想說,哇老師好炫阿,還用統計檢定!! 這是正確的嗎? 其實,推論統計是用樣本特性推母體特性,這表示當我們不能取得母體所有的值(可能是因為這樣成本太高),推論統計才有可以發揮之處。但是,在剛剛那個情境,老師很明顯的一定會知道母體中所有人的分數(50位學生),那這個情況下,其實用推論統計就是很怪的了,而且感覺沒意義,你都知道母體特性(全班平均數)了你還推論啥啊? 所以其實這個時候,你只需要描述統計就夠了!!! 這個常見的錯誤會因為我們常使用spss而更容易犯 spss是個溫柔的好女人,你只要跟他說一些指令,他就會給你很多。在這個情況下,有時你只要描述統計的東西,他也會很好心的附上推論統計的結果,那這個時候,你就要學會判斷什麼是要的資訊!! 有時候,太溫柔太熱情的不一定是好的,要學會判斷..所以這就是為何我在這裡,我要建立你的統計基礎,協助你提升判斷力!!! 一起簡單學,做的好吧!😉 比率尺度是所有尺度最高階的,它具備前面所有尺度的特性(類別、順序、區間)。
最常見的例子就是銷售量..來看看它如何具備所有尺度特性 具有區間尺度特性 (等距): 銷售量10與11,11與12都差1 具有順序尺度特性: 銷售量20000比10000大 具有類別尺度特性: 可以根據一個標準將銷售量進一步分類成不同類別,如高、中、低 比率尺度提供的資訊相對於其他尺度而言是最多且明確,譬如,你問一個人的每月可支配所得是多少?________ 他說,24444,這就是一個比率尺度的回答,相當明確 如果你用順序尺度 (選項間可比大小可是不等距,看看50001以上那個類別吧) 未滿10000 10001到20000 20001到30000 30001到40000 40001到50000 50001以上 這個人就會選20001-30000,可是你不知道確切的數字 或是如果用類別尺度 所得低 所得中 所得高 這樣不就更不明確? 但是雖然比率尺度可以得到明確資訊,有時在現實上我們不太可能用比率尺度直接去問人,特別是當這個問題比較敏感時 像剛剛的收入就是啦? 你在問卷上問請問你的每月可支配收入是多少____ 大部分的人都會忽略這題不填,因為這攸關個人隱私,或是有可能會謊報。 為了降低這種困境,我們實務上還是比較常用順序尺度問月收入,因為受試者不用很明確告知你它的所得,所以他們比較會願意填而且比較不會謊報 如果我是24444我勾20001-30000至少我可以假裝我是30000。 在問卷上請受試者填比率尺度,還有一個問題,就是你在考驗受試者的記憶 請問你一年內看了多少次電影?___ 如果你很少看電影,這題還好回答,萬一你將電影當成家常便飯呢? 再來看另一個例子,請問你一個月上網幾次?__ 這很難回答是吧! 如果用比較低階的尺度,就會比較好回答,至少受試者如果因為太多次記不起來,它可以勾選 “100次以上" 如果用比率尺度,受試者就可能會因為太難回答而選擇略過不答或是亂答。 所以如果要在問卷問題中用比率尺度,你可要謹慎選擇"參考的時間點",到底要一年以內、還是半年、還是一個月還是一周?這你可能在正式問卷前先做個小前測測試一下你的受試者是否能夠輕鬆回答 但比率尺度其實在某些資料很常用,且不會有上述問題!像是銷售量、收益、總銷貨成本等等會計或財務的資料,可以輕易從公司取得,或是考試分數,如果你是老師,你可以輕易知道因為就是你打分數的。 比率尺度的特性就是有絕對的零點,當所得為0時就是真的沒有所得,不像區間尺度,區間尺度沒有絕對零點,就算是0也還是有東西。所以,比率尺度可以做乘除運算。 那麼我們就已經將所有的變數尺度概念講完了,接下來你要開始簡單學、做的好了嗎! |
我是誰鬍鬚曾,政大博士,為人和善客氣,看起來呆呆萌萌的,喜歡分享簡單統計知識,熱心幫助有需要的人,做事認真,常常忘記要照顧自己 查文章
十月 2024
類別 |