強調:編碼這件事在資料分析中的重要地位
Published by 劉正山,
這個流程圖把我們學習編碼(資料清理)的重要性顯示出來了。
老師所教的,是Approach B。conversion to factors的動作,我們在
sjmisc::rec()
指令中,以as.num=F 這個參數一次完成。補充說明:
factor與vector的區別:
兩個字看來很像,也常被同學混淆。
factor在R的語言中,指的是可以用文字標籤顯示的資料類型(指的是細格中填入的那些東西),包含了類別型資料(英文為nominal, 也叫名目型資料)或順序型資料(英文為ordinal)。 與它相對的資料類型是numerical(純數值)或character(文字/字串)。在民調資料中,因為絕大多數內容是類別型的問卷題以及回答,因此我們多用factor來處理民調資料。至於它的中譯,有人翻作因子、要素、因素等,但都不理想,未觸及這個字在R中的實際意思。因此,劉老師在教學上,以「類別變數」來稱它,這樣同學同學比較好懂。在更好的譯詞出現前,要曉得劉老師這個稱呼仍不夠精準,因為factor也包含了順序型的資料。
另一個很像的字眼是vector(向量),指的是有方向性的資料檔案型態(整筆資料檔案的形式,共有四類)(見教材4.1)。民調資料大多是使用這四類中的data frame(資料框)。