抽樣
A+醫(yī)學(xué)百科 >> 抽樣 |
抽樣(sampling),從研究對象的全體(統(tǒng)計學(xué)上稱為總體)中隨機(jī)抽取一部分(統(tǒng)計學(xué)上稱為樣本)進(jìn)行研究,并據(jù)以論斷總體特征的統(tǒng)計學(xué)方法。在醫(yī)學(xué)中廣泛采用。例如,為了制訂中國少年兒童生長發(fā)育時身體的正常值,中國3億少年兒童就是研究的總體,在用抽樣方法進(jìn)行研究時,只需從總體中抽取一個樣本(如10萬人)進(jìn)行身體測量,最后以此10萬人的測量結(jié)果來推論全國少年兒童身體生長發(fā)育的正常值。用樣本來推論總體是有條件的,并不是從總體中抽取的任何一部分樣本都可用來推論總體,只有在解決了樣本的代表性、可比性的前提下,掌握了抽樣誤差的大小及發(fā)生概率時,才能用樣本來推論總體。此即抽樣研究中的四性(代表性、可靠性、可比性、顯著性)。
目錄 |
樣本的代表性
一個有代表性的樣本,必須是總體的一個具體而微的縮影,也就是說,樣本除了比總體小以外,在組成、變異等特征方面,均應(yīng)與總體相同。上例中,中國的3億少年兒童是由地理區(qū)域、民族、家庭經(jīng)濟(jì)狀況、文化背景各不相同的少年兒童組成。從中抽取的10萬人的樣本,也必須包括地理區(qū)域、民族、家庭經(jīng)濟(jì)狀況、文化背景各不相同的少年兒童,而且各特征的內(nèi)部構(gòu)成必須與總體基本一致。如果只抽南方兒童,某個測量指標(biāo)將偏低,如果只抽北方兒童,此測量指標(biāo)必然偏高。又如,欲了解某藥對急性細(xì)菌性痢疾的療效,如果只抽取在傳染病院住院的急性菌痢病人為樣本,那么它對總體來說就沒有代表性,因為急性菌痢有輕有重,而病情的輕重是影響療效的重要因素,住院者多為重癥,故其療效實際是對重癥急性菌痢的療效,而不能代表全部急性菌痢的療效。為了保證樣本具有代表性,首先要對研究的總體有十分明確的認(rèn)識,例如,為了研究某藥對細(xì)菌性痢疾的療效,研究總體就應(yīng)包括急性、慢性、不同年齡不同病情不同菌型的患者的全體。具有代表性的樣本就必須包括上述各種類型的病人。又如為了研究某藥對兒童急性普通型菌痢的療效,則研究總體就是15歲以下,不合并中毒性休克的急性菌痢患者的全體。此時抽樣只需包括15歲以下,無中毒性休克的急性菌痢病人。上述第一種情況中,總體范圍太大,樣本數(shù)量必然很大,而實際工作中,往往不能達(dá)到如此大的樣本。后一種情況中,由于總體范圍較小,抽樣容易得多,但其結(jié)論也只能推論14歲以下普通型急性菌痢的療效,而不能推廣至各種類型的菌痢患者。另外,當(dāng)研究總體不夠明確、具體時,往往易導(dǎo)致系統(tǒng)誤差。例如,要研究3歲兒童的身高,就必須明確規(guī)定出生年月的范圍(如1986年滿 3周歲的兒童應(yīng)為1983年1月1日至1983年12月31日出生的兒童),否則由于各地計算年齡的方法不同,則很可能將不到3歲的孩子誤抽為樣本,這樣必然影響研究結(jié)果的準(zhǔn)確性。
為了保證樣本具有代表性,抽樣時還應(yīng)當(dāng)遵守隨機(jī)的原則,即要保證總體中,每個個體都有同等機(jī)會被抽到。例如,要在某工廠內(nèi)觀察某中藥對某病的療效,除對影響該病的因素(如病程、病情等)要作明確具體的規(guī)定外,還要使在規(guī)定范圍內(nèi)的全體病人中,每個人都有同等的被抽取為觀察對象的機(jī)會。如可按病人的工作證號編碼抽樣,也可按車間班組抽樣,而不能由醫(yī)務(wù)室提供受試者名單,因為這樣提供的名單往往是病程長、病情重或經(jīng)其他藥物治療無效者的名單。同樣,也不能讓患者自愿報名受試。因為一般中藥服用較麻煩,且味苦,故多數(shù)患者往往先選擇服用簡便的藥物,如果讓患者自愿報名,則多數(shù)受試者,必然是療程過長或其他藥物治療無效者。
樣本的可靠性
一個有代表性的樣本,不一定就可以用來推論總體,這是因為從有變異的總體中抽取樣本,即使遵循了隨機(jī)化的原則,偶然的抽樣機(jī)遇也會使樣本與總體之間有一定的差異。例如,在某地正常成年人的總體中,隨機(jī)抽取1000人,測定血清谷氨酸-丙氨酸轉(zhuǎn)氨酶(GPT)的平均值為85單位。在同樣條件下(抽樣方法、檢測技術(shù)、儀器試藥均相同)再抽取1000人進(jìn)行測定,則平均值不一定仍是85單位,而可能是75、80或90單位等。如果由于偶然的機(jī)會,多抽取了一些GPT高的人,所得平均值就偏高。多抽取了一些 GPT低的人,平均值就偏低。這種偶然的抽樣機(jī)會導(dǎo)致的誤差,在統(tǒng)計學(xué)上稱為抽樣誤差。抽樣誤差在抽樣調(diào)查中客觀存在,不可避免。因此,在用樣本推論總體時,必須考慮抽樣誤差的大小及其發(fā)生規(guī)律,從而借此確定用樣本推論總體的可信程度。
標(biāo)準(zhǔn)誤
用來表示抽樣誤差大小的指標(biāo),實際是均數(shù)的標(biāo)準(zhǔn)差(見平均數(shù)、變異度)。在統(tǒng)計學(xué)中標(biāo)準(zhǔn)差是反映事物變異程度的指標(biāo)。例如20歲左右女青年的身高可以1.5米至1.9米,但若分別測量兩組同年齡的女青年(賓館服務(wù)員和大學(xué)生)的身高并計算其標(biāo)準(zhǔn)差,則結(jié)果必然是大學(xué)生組的標(biāo)準(zhǔn)差大于賓館服務(wù)員組。這是因為招收賓館服務(wù)員時身高有一定的要求,過矮過高的都不錄取,故她們的身高變異程度小,或者說身高較整齊;而大學(xué)生的身高并非錄取條件,故她們的身高參差不齊,或者說變異程度大。設(shè)有一研究總體,總體均數(shù)為 μ,在此總體中,多次重復(fù)抽樣,每次抽樣均可得到一個樣本均數(shù),這些樣本均數(shù)必然有的比 μ大,有的比μ ?。挥械木嚯xμ 較近,有的距離μ 很遠(yuǎn)。這些樣本均數(shù)也有一個變異程度,用來表示這種變異程度的指標(biāo)就是均數(shù)的標(biāo)準(zhǔn)差,或稱為標(biāo)準(zhǔn)誤。
標(biāo)準(zhǔn)誤(抽樣誤差)的大小與該事物的變異程度成正比(從變異大的總體中抽樣,抽樣誤差大,反之抽樣誤差?。?,與樣本數(shù)的平方根成反比(樣本數(shù)愈大,抽樣誤差愈?。?。
可信限
也稱可信區(qū)間。樣本統(tǒng)計值與總體統(tǒng)計值之間,由于偶然的抽樣機(jī)遇總會存在一定的差異。因此,用樣本推論總體時,只能推論總體所在的范圍,及在此范圍內(nèi)的概率,而不可能確切推論總體的統(tǒng)計值。這種用樣本推論總體所在的范圍,即稱為可信限,常用的有95%及99%的可信限。以下簡述其原理及計算方法。
假設(shè)某地區(qū)全部正常成年人的血清膽固醇的總平均值為160mg/100ml,在此總體內(nèi)重復(fù)抽樣1000次,則可得1000個樣本均數(shù)??梢钥吹竭@些樣本均數(shù)有的比 160大,有的比160小,但與160接近的最多,距離160往兩端愈遠(yuǎn)的愈少。如果把這些樣本均數(shù)的分布用直方圖表示,即可得圖1。圖中橫軸為均數(shù)的組段(血清膽固醇),縱軸為樣本數(shù)。若抽樣次數(shù)再增加,組再分細(xì),則可得圖2。當(dāng)抽樣次數(shù)增加到無限多,直方圖的鋸齒消失,成為一條光滑的曲線,即圖3,此曲線與統(tǒng)計學(xué)中的正態(tài)曲線極為近似。因此可以借用正態(tài)曲線的規(guī)律來推論總體所在的范圍。
正態(tài)曲線
以總體均數(shù)為中心(最高點),往兩端逐漸降低但與橫軸永不相交,兩側(cè)完全對稱的鐘形曲線(圖 4)。若以此曲線下的總面積為100%,以μ 表示總體均數(shù),σ塣表示總體標(biāo)準(zhǔn)誤,則曲線下各部分的面積有如下分布規(guī)律:
μ±σ塣的面積占曲線下總面積的68.27%
μ±1.96σ塣的面積占曲線下總面積的95.00%
μ±2.58σ塣的面積占曲線下總面積的99.00%總體標(biāo)準(zhǔn)誤 σ塣 是說明樣本均數(shù)圍繞總體均數(shù)變異程度的指標(biāo),在實際工作中常用樣本標(biāo)準(zhǔn)誤S塣來代替。μ±S塣的面積占總面積的68%的含義是:若從同一總體中重復(fù)抽取100個樣本,則這100個樣本均數(shù)有68個在 μ±S塣的范圍內(nèi),比 μ-S塣小的和比μ+S塣大的樣本均數(shù)各有16個。換一個角度來說,68%就是一個樣本均數(shù)落在μ-S塣至 μ+S塣范圍內(nèi)的概率。
同理, μ±1.96S塣的面積占總面積的95%,這說明一個樣本均數(shù)落在 μ-1.96S塣至μ+1.96S塣范圍內(nèi)的可能性是95%,而比 μ-1.96S塣小的和比μ+1.96S塣大的可能性各有2.5%。μ±2.58S塣的面積,占總面積的99%,這說明一個樣本均數(shù)落在 μ-2.58S塣至μ+2.58S塣范圍內(nèi)的可能性是99%,在此范圍以外的可能性只有1%。
以上規(guī)律是樣本均數(shù)(塢),距離總體均數(shù)(μ)的規(guī)律,但也可把它視為總體均數(shù)離開樣本均數(shù)的規(guī)律,因為在實際工作中,可以得到的是樣本均數(shù),要推論的是總體均數(shù)。既然樣本均數(shù)與總體均數(shù)相差±S塣的概率是68%,相差±1.96S塣的概率是95%;那么總體均數(shù)與樣本均數(shù)相差±S塣的概率當(dāng)然也是68%,總體均數(shù)與樣本均數(shù)相差 ±1.96S塣的概率也是95% 。因此所謂 塢±1.96S塣即95%的可信限。它的含意是:總體均數(shù)在塢±1.96S塣范圍內(nèi)的概率是95%。或者說總體均數(shù)在 塢±1.96S塣范圍內(nèi)的可信程度是95%。所謂塢±2.58S塣即99%的可信限,它的含意是,總體均數(shù)在 塢±2.58S塣范圍內(nèi)的概率是99%,或者說總體均數(shù)在 塢±2.58S塣范圍內(nèi)的可信程度為99%。
例如,為了了解某地正常成年人血清膽固醇的平均值,隨機(jī)抽取500人,測得樣本均值塢=165.0mg/100ml,標(biāo)準(zhǔn)差S=52.0mg/ml,并由n=500求得S塣=2.33mg/100ml;則95%的可信限為:165±1.96×2.33,即160.43~169.57mg/100ml。這說明該地區(qū)正常成年人血清膽固醇的平均值在160.43~169.57mg/100ml范圍內(nèi)的概率為95%。
樣本的可比性
在醫(yī)學(xué)研究中,常常需要判斷某種治療或預(yù)防措施的效果;也常需要分析研究影響疾病發(fā)生及轉(zhuǎn)歸的因素。在解決這兩類問題時,往往要同時抽取兩個或兩個以上的樣本進(jìn)行對比分析,因為許多疾病可能自愈或自然緩解,沒有對比分析就很難下結(jié)論。例如,有人用柳樹葉治療急性黃疸型肝炎(以下簡稱急黃肝)120例,10周后基本治愈者93例,治愈率為 77.5%。于是下結(jié)論:“柳葉治療急黃肝療效好”。這樣的結(jié)論是不科學(xué)的。實際上,急黃肝只要注意休息、營養(yǎng),不給任何特殊治療,10周后也必然會有一部分人自愈。如有人曾對與上述病人相同的70例急黃肝進(jìn)行觀察,除維生素B、C及酵母外,不給其他任何藥物,10周后基本治愈的49例,治愈率70%,這說明急黃肝不給特殊治療,也有70%自愈,所謂77.5%的柳樹葉療效實際上是虛假的。
在對比分析研究時,最重要的前提是對比組之間必須具有可比性。樣本間的可比性指相互比較的樣本之間,除了要比較的因素(如不同藥物)以外,其他影響研究結(jié)果的主要因素要控制得基本相同。例如,要比較不同治療方法對高血壓病的療效時,比較組間除治療方法不同以外,其他影響治療效果的主要因素,如病情、病人的年齡等均應(yīng)控制得基本相同。
表1、表2為不同方劑對高血壓病療效的資料。不能根據(jù)表2就得出結(jié)論:小方劑的療效比大方劑好,因為從表1可以看出兩組病人的病情相差很大。大方劑組中Ⅰ期病人占28.8%,其余為Ⅱ、Ⅲ期病人;而小方劑組中Ⅰ期病人占55.9%,其余為Ⅱ、Ⅲ期病人。這說明大方劑組病人病情重得多。這組病人的療效不好是因為治療方法不好(方劑過大)還是病情較重,據(jù)此資料是不能斷定的。
控制樣本間的可比性,實際是去除混雜因素的干擾。表3、表4為高血壓流行學(xué)調(diào)查報告的資料。研究者分析了高血壓的患病率與吸煙和年齡的關(guān)系,經(jīng)顯著性檢驗后,認(rèn)為這兩個因素均影響高血壓的患病率。兩個表的觀察總數(shù)均為1133,但表 3在吸煙組與不吸煙組中,并未控制年齡基本相同;而表4未控制各年齡組中,吸煙者的比重基本一致,故上述結(jié)論是站不住腳的。正確的做法應(yīng)該將兩個因素放在一起來考慮,如表5所示,表中縱向看為吸煙的和不吸煙的不同年齡組的患病率;橫向看則為在同一年齡組中(即控制年齡相同)吸煙者和不吸煙者的患病率。表5表明高血壓的患病率與病人的年齡有關(guān)(隨年齡升高而升高),而與吸煙無關(guān)。應(yīng)該指出表5這樣的組合表的分析,只適用于因素較少的情況(一般3~4個因素)。因素過多時,分組過多,每個格子內(nèi)的數(shù)據(jù)就少,而樣本往往達(dá)不到足夠分析的數(shù)量,因素較多時,一般用多元分析的方法處理(見多變量統(tǒng)計分析)。
樣本的顯著性
若同時抽取多個樣本進(jìn)行研究,則同樣也存在抽樣誤差問題。大量實踐證明,黃連素治療急性普通型細(xì)菌性痢疾的療效為90%。設(shè)某中草藥治療同類痢疾的總有效率為70%。若從黃連素治療的急性菌痢總體中抽樣,由于抽樣機(jī)遇完全可能得到p1及p2的樣本(圖5),當(dāng)然,也可以得到其他數(shù)值的樣本。同理,在用中草藥治療的急性菌痢總體中抽樣,也完全可能得到p3及p4的樣本。p1和p2來自同一總體,它們之間有10%的差異,這是由于抽樣的偶然機(jī)遇所致。p1與p3之間也有10%的差異,但它們來自不同的總體,這種差異是本質(zhì)因素(本例為治療藥物不同)不同所致。由此可見:當(dāng)兩樣本(或多樣本)間有差異時,其來源有兩種可能性,一是兩樣本間本來沒有什么差異,它們來自同一總體,它們之間的差異是偶然的抽樣機(jī)遇所致,是沒有意義的;另一種情況是兩樣本來自本質(zhì)不同的兩個總體,它們之間的差異不能用偶然的抽樣機(jī)遇來解釋,是有意義的。統(tǒng)計學(xué)中的顯著性檢驗,即用以檢驗這兩類差異中,哪一類發(fā)生的可能性大。顯著性檢驗的方法很多,但無論哪一種方法,其基本原理都是先假設(shè)兩樣本來自同一總體,即先假設(shè)兩樣本之間的差異是偶然的抽樣機(jī)遇所致,是沒有意義的(這一假設(shè)在統(tǒng)計學(xué)上,稱為檢驗假設(shè)或無效假設(shè))。然后根據(jù)一定的公式計算,獲得兩樣本之差由偶然的抽樣機(jī)遇所致的概率p值。若p值大,說明兩樣本之間的差異由偶然的抽樣機(jī)遇所致的機(jī)會大,符合原假設(shè),不能推翻原假設(shè),也即兩樣本之間,無本質(zhì)差別,或差異無意義(無顯著性)。若p值小,說明兩樣本之間的差異由偶然的抽樣機(jī)遇所致的機(jī)會小,故可以推翻原假設(shè),也即兩樣本之間的差異是由某些本質(zhì)因素不同所致,是有意義的(有顯著性)。統(tǒng)計學(xué)上人為規(guī)定顯著性的界限如下:p≤0.05為有顯著性,p>0.05為無顯著性,p≤0.01為有極(高度)顯著性。應(yīng)當(dāng)強調(diào)的是,p值的大小與樣本間差異的大小是兩回事,p值說明的是樣本間的差異由偶然抽樣機(jī)遇所致的概率大小,而不是樣本間的差異大小。另外,只有在樣本具有可比性的前提下,進(jìn)行顯著性檢驗才有意義,否則p值再小,也不能反映樣本間的差異有意義。
關(guān)于“抽樣”的留言: | ![]() |
目前暫無留言 | |
添加留言 |