目前分類:數據分析 (2)

瀏覽方式: 標題列表 簡短摘要

我很驚訝在一份收費的正式教材裡,竟然看到把LabelEncoder完之後的數值,拿去跑模型。然後還煞有其事的和OneHotEncoder做模型之間的比較?這是什麼毫無統計觀念的人做出來的教材?

2_1.png

先以最容易理解的線性模型來說,要看「解釋變數(x)」與「被解釋變數(y)」間的關係,的前提!建立在這些變數本身彼此間的數值大小是有意義的,舉例來說:x是職場年資、y是年收入,我們預期x越高、y會越高,但實際是不是這麼一回事,我們以模型來觀察,是不是符合我們預期。

 

無論符不符合預期,這個觀察都是有意義的,因為變數本身數值間的大小有意義:x越小表示年資越小、x越大表示年資越大;同理y越小表示年營收越小、y越大表示年營收越大。簡直就像廢話一樣,但這麼有意義的廢話,正是一個模型要有意義的重大前提。

 

LabelEncoder,中文翻譯為「標籤編碼」,這在做什麼事情?

ChaiMa 發表在 痞客邦 留言(0) 人氣()

對非本科的而言,這肯定又是一個乍看即令人敬而遠之的專有名詞,若再直接搭配它給的各種機率密度函數,幾乎是讓人一眼就放棄瞭解。但其實它的概念非常單純:

 

【把長條圖畫成折線圖!】 (就這樣而已~) 

1.png

更簡單一點來說,當我只是把A圖改畫成B圖,我就可以說:「我作了核密度估計。」或是推推眼鏡說:「沒什麼,KDE一下而已。」而把A畫成B這工作之簡單,甚至只是軟體中改個呈現方式(長條圖改折線圖)、或語法中改個參數(hist改成kdeplot)這樣罷了。

 

也因此,如果能懂長條圖在幹嘛,也能看著圖解釋其中意思,那當它變成折線圖時,有什麼好突然變得不懂的呢?

ChaiMa 發表在 痞客邦 留言(3) 人氣()