《抽样调查抽样设计培训讲义.ppt》由会员分享,可在线阅读,更多相关《抽样调查抽样设计培训讲义.ppt(39页珍藏版)》请在第壹文秘上搜索。
1、抽樣調查動機從(少量的)樣本推估母體的特徵。選取可以深入觀察母體的樣本,以儘可能不干擾母體的情況下取得資訊。觀察性研究。實驗性研究。觀察對實驗觀察性研究(Observational study)。對每一個體僅做觀察並量測有興趣的變數,並不試圖影響反應值。抽樣調查(sample survey)。實驗性研究(Experimental study)。對每一個體給予特定的處理(treatment),再觀察並量測有興趣的變數的反應值。隨機比較性實驗。抽樣調查的用途民意調查選舉民意、公共議題民意、施政滿意度調查市場調查產品行銷、潛在顧客研究調查農業災害調查、網路行為調查母體的界定調查中欲推論的所有範圍或是
2、想收集的資料所有可能的對象或單位,所構成的集合稱為母體(Population)。定義調查對象與範圍 從母體中選出的部分個體,我們據以獲取資料,稱為樣本(Sample)。選擇樣本的方法稱為樣本設計。母體的種類推論母體:理論上的母體。目標母體:依調查研究的目的訂定有明確的涵蓋範圍。底冊母體:調查時建立的名冊。調查母體:底冊母體中可以也願意被調查的部分。市長選舉調查推論母體:理論上的母體。台北市的選民。目標母體:訂定有明確的涵蓋範圍。12月投票時,有投票權的選民(20歲以上)。底冊母體:調查時建立的名冊。台北市各區公所建立的選民名冊。調查母體:可以也願意被調查的部分。願意接受(電話)訪問的選民。戶政
3、調查推論母體:理論上的母體。目標母體:訂定有明確的涵蓋範圍。底冊母體:調查時建立的名冊。調查母體:可以也願意被調查的部分。戶政調查(一)-電訪或郵寄問卷推論母體:理論上的母體。戶政事務所轄區所有居民。目標母體:訂定有明確的涵蓋範圍。11月初,戶籍在本區、準備遷入或經辦與本所有關業務的人。底冊母體:調查時建立的名冊。11月初,戶政事務所建有名冊的人。調查母體:可以也願意被調查的部分。電訪:本區有電話的居民。郵寄:住在戶籍地的居民。戶政調查(二)-戶政所洽公推論母體:理論上的母體。戶政事務所轄區所有需要戶政所服務的居民。目標母體:訂定有明確的涵蓋範圍。11月初,所有來戶政所洽公的人。底冊母體:調查
4、時建立的名冊。沒有名冊。調查母體:可以也願意被調查的部分。11月初,所有來戶政所洽公也願意填問卷的人。抽樣與普查所有的樣本都調查稱為普查。只調查部分樣本稱為抽樣調查。調查資料所計算出來的統計量,都存在著誤差。誤差分為抽樣誤差及非抽樣誤差。抽樣誤差:選取部分樣本造成對母體推估的誤差,可透過提高樣本數來降低抽樣誤差。非抽樣誤差:抽樣誤差以外的所有誤差,與樣本數的大小沒有直接的關係。包括:拒訪或遺漏值、測量不準、資料處理錯誤等所造成的誤差。一般多需在調查過程中,透過嚴謹的管理來降低非抽樣誤差。抽樣或普查?小母體時採用普查。大母體或具破壞性檢驗時採用抽樣。燈泡壽命大母體的普查要注意調查步驟的管理。國內
5、大型定期普查工商及服務業普查。民國80、85、90年,每5年做一次普查。農林漁牧業普查。西元1990、2000年,每10年做一次普查,每5年做一次抽樣調查。戶口及住宅普查。西元1990、2000年,每10年做一次普查,每5年做一次抽樣調查。樣本與母體任何母體的一部分都可稱為樣本。抽樣的目的就是要以少量的樣本來代表母體。樣本代表性的評估樣本數與樣本結構。樣本代表性-樣本數樣本數越多代表性越高的機會高,但管理也越困難,產生非抽樣誤差的機會也越高。樣本代表性-樣本結構基本結構:性別、年齡、居住地等。與調查相關的結構:選舉時的黨派傾向結構環保議題之民意調查時需考量樣本的教育程度、社經地位(收入、職業等
6、)等結構。調查的步驟步驟一:決定母體步驟二:設計問卷問卷的問項(明確陳述要估量的變數)步驟三:建立抽樣底冊步驟四:抽樣設計並決定樣本數步驟五:建立樣本名冊步驟六:進行調查步驟七:整理資料步驟八:分析資料樣本的選擇有名冊的母體市長選舉沒有名冊的母體來華旅客故宮滿意度調查戶政滿意度調查調查的方式派員面訪訪員問及填答、受訪者自行填答。郵寄問卷調查電話訪問調查傳統電話訪問、電腦輔助電話訪問(CATI)網路問卷調查網頁問卷調查、電子郵件(E-mail)問卷調查抽樣方法簡單隨機抽樣分層隨機抽樣集群抽樣系統抽樣簡單隨機抽樣抽樣原理:調查母體中每一個樣本被抽到的機會一樣。應用時機:1.母體小;2.名冊完整;3
7、.訪問成本不受樣本地點的影響;4.除了名冊沒有其他的資訊。限制與困難:簡單隨機樣本的選取步驟1:編號,母體中每一個體給一號。步驟2:查表,使用隨機亂數表選號。30個母體中選五個。步驟1:列冊編號步驟2:查表:隨機亂數表某行資料為 69051 64817 87174 09517 84534 06489 87201 97245 前10組 2位數為 69 05 16 48 17 87 17 40 95 17 00,3199略去,選 05,16,17,17,17,17重複繼續 再10組 2位數為 84 53 40 64 89 87 20 19 72 45 補選 20,19,最後選出05,16,17,2
8、0,19。分層隨機抽樣將母體中每一個體,依有特別興趣,或是有接近性質為標準,分為若干個子母體,稱為層(stratum)。在每一層分別隨機抽取部份子樣本,再整合成一個樣本。使用的原因與時機:抽樣管理方便;不同層內調查設計可以不一樣;需要對子母體做較精確的估計;比其他抽樣方法可得到較精確的母體估計。分層樣本(Stratified sample)分層樣本的選取步驟一:將母體步驟二:每層各取一個SRS,全部合起來就是分層樣本。歌曲著作權使用費的分配美國作曲家組織(ASCAP)每年向廣播電台收取播曲權利金$435百萬(每年播放53百萬小時歌曲),將分配給作曲家會員。將所有電台依社區種類(都會區、鄉村等)
9、、地區(新英格蘭、太平洋等)及付出權利金額度(反應電台聽眾數)等特性分成432層。每層隨機選幾台隨機錄音數小時,共錄音60,000小時。由專家辨認所有歌曲的作曲作詞者,記錄後依比例分配權利金。集群抽樣先將母體分群,視之為抽樣單位,抽樣時只抽出部分群來。群內所有樣本都調查時稱為一階段集群抽樣;群內在抽部分樣本來調查時稱為二階段集群抽樣。使用時機:母體底冊的限制不得已。多搭配分層抽樣,以分層後各層再進行二階段集群抽樣。多階段集群抽樣實例全國性家戶調查步驟一:將美國分成2007地理區域,稱為主要樣本單位(Primary Sampling Units,PSUs)。選出754 PSUs,包括428人口最
10、多 PSUs其餘隨機選出的。步驟二:選出的每個PSU分為若干小區,各小區依種族等分層,選出分層樣本(小區)。步驟三:選出的小區中依各戶相近程度每四戶成一集群(Cluster)。隨機選出集群調查。系統抽樣可視為是一階段集群抽樣的特例。以相同間隔的樣本組成群,隨機選取一群。容易操作,但間隔選取不好時會造成嚴重的系統偏差。多搭配其他抽樣方法使用,如分層系統抽樣。系統隨機樣本範例系統隨機樣本(systematic random sample):預計抽出n=250 的樣本,母體的總數為 N=5000。令 N/n=k=20,120中隨機選出一數 a,則a,a+k,a+2k,a+(n-1)k為一組樣本數為
11、n 的系統隨機樣本。每一個個體被選到的機會一樣。但每一組樣本數為 n 的樣本未必有相同的機會被選到。自願樣本與立意選樣自願樣本:主動對議題表達意見。如Call-in,網頁問卷調查等。自願樣本多數表達較強烈意見,因此多有偏差。立意選樣:依調查的方便主觀選取樣本。如街頭訪問,賣場問卷調查等。因主觀選取的地點與方法而有不同程度的偏差意見。這些抽樣方法多不足以代表母體。戶政調查的抽樣設計母體的特質抽樣方法戶政調查的抽樣設計母體的特質個人自辦、公司代辦;日間、夜間;抽樣方法分層系統隨機抽樣。信賴區間母體參數多以樣本平均值估計之,估計值的信賴區間可寫成,信賴度為95%時,z=1.96。信賴度為99%時,z
12、=2.575。nz樣本變異數估計值 抽樣誤差與樣本數信賴區間的長度的一半稱為抽樣誤差,記為m,也稱為誤差容忍度。即信賴度為95%時,。信賴度為99%時,。nz樣本變異數mn96.1樣本變異數mn575.2樣本變異數m數量參數估計所需的樣本數 當樣本數為 時,參數估計值之信賴區間的誤差容忍度接近給定值 m。樣本變異數2*)(mznn)(nz2樣本變異數樣本變異數zmm比例參數估計所需的樣本數當樣本數為 時,p 之估計值信賴區間的誤差容忍度接近給定值 m。其中p*為樣本比率的猜測值。猜測值 p*=0.5時,實際誤差容忍度不大於給定值 m。95%信賴水準,抽樣誤差3%,樣本數為1067。)1()(*2*ppmzn母體與樣本結構一致性檢定抽樣樣本結構與母體結構是否相同。性別結構,男女比例50.5%,49.5%,k=2,1067個樣本中,男生 530個,女生537個,則 ,無法拒絕 H0,即樣本結構與母體結構一致。()()(.).53010675052106750553710674952106749502926540 2926540 58852.%.%.%.%.PP X值為母體與樣本一致性檢定(續)其他類別資料也可用此法,檢定樣本結構與母體結構是否相同。年齡結構及教育程度則須先轉換成類別變數,才可用此法檢定。樣本結構與母體結構一致,是問卷調查時,樣本資料分析結果,可推論到母體的必要前提。