用户评价: 5 / 5

加星加星加星加星加星
 

誤讀研究

前述幾項研究,其實驗方式有其先天不足之處;大眾對此類研究之所以常有錯誤詮釋,往往因為忽略其先天限制。以大腦結構為例,我們很容易假設,既然某種生理特徵與某種行為或心理特徵有關,則必然是前者導致後者。這種思路源於某個誤解,本部份將使用幾個流行病學概念詳加解釋。雖然部份議題比較專門,我們會盡量講解得淺白,讓門外漢也看得懂。

且舉例,假設發現男同性戀者與男異性戀者有一種、或幾種生理特徵差異,這種差異可能是間斷量數(discrete measure,稱為D),比如某段基因出現;或是連續量數(continuous measure,稱為C),如大腦某區域的平均大小。

若果某風險因素,明顯令某種健康問題或行為增加,這對我們了解該健康問題或行為之發展過程或者有幫助,卻無法證明兩者有因果關係;事實上這不能證明甚麼,只能說兩者有最弱的關聯。然而大眾通常會推斷,假如證明男同性戀者與男異性戀者有某種明顯差異,即可能發現了D(無論是基因、荷爾蒙或其他),無論機率有多低,許多人都會認為此發現證明同性戀有生理成因。但此推斷其實不合理。某種相對罕見的特徵,就算出現機率多一倍(甚或三四倍),都無助於預計某人會否成為同性戀者。

任何連續變數(C)也一樣,顯示男同性戀者與男異性戀者某種特徵(如腦區大小)之平均或中間數有差異,也不足以證明這種平均差異關乎性傾向之機率。再者,兩個組別之平均數雖有顯著差異,但兩組也可能有甚多重疊處,即是說,各組成員彼此之間可以並無顯著分野,因此所得數值無助預估性傾向或取向。

上述問題,部份可循方法學進路解決,如使用實習樣本(training sample)或交叉驗證程序(cross-validation)。所謂實習樣本,是用以建立模型(或假設)的小樣本,再以另一較大的獨立樣本測試模型,其目的,是避免用建立模型的同樣數據做測試。而交叉驗證,則以檢視某個具統計學意義的效應是否純屬巧合;若想證實結果非因巧合(假如樣本夠大),可以在同一樣本做隨機切割,再做同樣測試。研究員發現同性戀者與異性戀者樣本存在明顯的D或C差異後,可在同性戀組別做隨機切割一分為二,再證明此兩組並沒有D或C的差異。假設研究員比較同性戀與異性戀組別樣本時,找到百份之五差異;將同性戀組別一分為二後,在兩者間同樣找到百份之五差異,那最初發現同性戀者與異性戀者間之差異,則可能成疑。