數據分析－宅馬窩

我很驚訝在一份收費的正式教材裡，竟然看到把LabelEncoder完之後的數值，拿去跑模型。然後還煞有其事的和OneHotEncoder做模型之間的比較？這是什麼毫無統計觀念的人做出來的教材？

先以最容易理解的線性模型來說，要看「解釋變數(x)」與「被解釋變數(y)」間的關係，的前提！建立在這些變數本身彼此間的數值大小是有意義的，舉例來說：x是職場年資、y是年收入，我們預期x越高、y會越高，但實際是不是這麼一回事，我們以模型來觀察，是不是符合我們預期。

無論符不符合預期，這個觀察都是有意義的，因為變數本身數值間的大小有意義：x越小表示年資越小、x越大表示年資越大；同理y越小表示年營收越小、y越大表示年營收越大。簡直就像廢話一樣，但這麼有意義的廢話，正是一個模型要有意義的重大前提。

LabelEncoder，中文翻譯為「標籤編碼」，這在做什麼事情？

ChaiMa 發表在痞客邦留言(0) 人氣()

對非本科的而言，這肯定又是一個乍看即令人敬而遠之的專有名詞，若再直接搭配它給的各種機率密度函數，幾乎是讓人一眼就放棄瞭解。但其實它的概念非常單純：

【把長條圖畫成折線圖！】 (就這樣而已~)　

更簡單一點來說，當我只是把A圖改畫成B圖，我就可以說：「我作了核密度估計。」或是推推眼鏡說：「沒什麼，KDE一下而已。」而把A畫成B這工作之簡單，甚至只是軟體中改個呈現方式(長條圖改折線圖)、或語法中改個參數(hist改成kdeplot)這樣罷了。

也因此，如果能懂長條圖在幹嘛，也能看著圖解釋其中意思，那當它變成折線圖時，有什麼好突然變得不懂的呢？

ChaiMa 發表在痞客邦留言(3) 人氣()

宅馬窩