2023-12-09, 13:00–13:30 (Asia/Taipei), NYCU
特徵工程是在建置數據模型時相當重要也最藝術的部分,除了能幫助模型捕捉到解釋變數和目標變數間的聯繫,而藝術的地方在於,進行特徵工程相當大程度取決於研究者對於領域知識、專案需求的理解,沒有一體適用的方法
在這次的演講中,我以 CakeResume 上的職缺資料為例,和大家分享我建置的薪資預測模型,以及如何經過一系列的特徵工程後,將模型的效度(R^2) 從原本的 0.06 逐步提升至 0.55
要強調的是,分享的重點並不在於模型的效度本身,而是該如何反覆分析與診斷模型的問題,有目的性的根據遇到的問題來進行對應的特徵工程,讓模型效度能滿足業務端的需求。希望讓大家能更深刻的體會特徵工程的心法與技巧
想像中在建立數據模型時有一套標準的建模流程,在這個流程中大致可以分成 收集資料 > 預處理 > 特徵工程 > 建置模型 > 預測...等階段,其中每個階段都有單一的前進方向。然而實際上卻需要反覆根據錯誤分析的結果來診斷模型的問題並逐步優化建置的數據模型,直到模型能滿足業務端對於效度的要求
然而透過特徵工程來優化數據模型並非是無腦、暴力的做嘗試,有經驗的分析師/資料科學家可以根據模型的狀況,有目的性的做出假設和實驗,快速找出問題的核心與修正方向
在這次的分享中,我想以真實世界中 CakeResume 的職缺資料為例,和大家分享我在建置職缺薪資預測模型的經驗,包含在建模的過程中遇到了哪些事情,怎麼一步步的做錯誤分析,並根據分析的結果進行特徵工程,藉此逐步調整和優化模型在預測和解釋上的效度
選擇使用 CakeResume 的職缺資料是因為 CakeResume 不只有相對較多的職缺訊息,另外 CakeResume 上的職缺絕大部分有薪資範圍的具體數字,相對適合用進行這次的研究
此外,薪資預測模型一方面可以幫助企業評估各項職務應給予的薪資水位外,也可以幫助求職者更好的規劃自己未來的職涯發展。最後我也會以目前在 資料科學領域 7 年的工作經驗,給予想要進入這個領域的求職者/學生一些職涯發展的建議
Ask questions at slido
No, previous knowledge expected
Language –Mandarin talk w. Chinese slides
Hi, I'm a Data scientist from Cathay Financial Holdings in Taiwan. I have over seven years of hands-on experience in large-scale backend and AI/ML technology applications in digital marketing and customer service.