我很驚訝在一份收費的正式教材裡,竟然看到把LabelEncoder完之後的數值,拿去跑模型。然後還煞有其事的和OneHotEncoder做模型之間的比較?這是什麼毫無統計觀念的人做出來的教材?
先以最容易理解的線性模型來說,要看「解釋變數(x)」與「被解釋變數(y)」間的關係,的前提!建立在這些變數本身彼此間的數值大小是有意義的,舉例來說:x是職場年資、y是年收入,我們預期x越高、y會越高,但實際是不是這麼一回事,我們以模型來觀察,是不是符合我們預期。
無論符不符合預期,這個觀察都是有意義的,因為變數本身數值間的大小有意義:x越小表示年資越小、x越大表示年資越大;同理y越小表示年營收越小、y越大表示年營收越大。簡直就像廢話一樣,但這麼有意義的廢話,正是一個模型要有意義的重大前提。
LabelEncoder,中文翻譯為「標籤編碼」,這在做什麼事情?