資料處理演算尖兵:吳胤霆–高昇英雄No.005

He who has a why to live can bear almost any how. – Friedrich Nietzsche

知道自己為何而活,才能忍受如何而活

.

.

✦ 前言

有幸受邀成為高昇老師眾多菁英學生中的其中一位英雄、加上希望能為2020帶來些微的正能量,於是便提筆撰寫一些至今的心路歷程;能考好(研究所)的人除了運氣外,必定有經過一番努力的奮鬥史,但身為高昇英雄中第一個中字輩商院畢業的學生,本文重點並不想著重在筆者努力的過程,而是希望透過這篇文章,能激勵一些背景稍不如人的讀者。

筆者一直堅信,學校背景、就讀科系等外在觀點都不能限制人的發展,只有自己能定義自己。原文僅供原創者及高昇老師使用,轉載也請指名原文來源,感謝。

.

.

簡歷

.

.

報考研究所動機

先遞上一張「大一」的成績單來紀念我的青春

上圖:知道二上為什麼統計學要停修嗎?因為一定會被當,然後就要被退學啦

筆者來自一個家族成員皆是台大與成大碩士的南部鄉村家庭,自幼便活在好學校等於一路順遂、惟有讀書高這種被迫標準化的環境裡。但叛逆的我,自幼對走安排好的路就從不感興趣,每天都與學校&家庭唱反調,只想打籃球&玩旋死團。

.

影片:玩旋死團。第39秒開始,畫面右側嘶吼的主唱就是Ethan。(Gosen解說)

.

在家庭都不支持我發展興趣下,我也只能走自己探索出來的路,依靠小聰明在大學以前也都讀不錯的學校。現在回憶過去也曾有想認真讀書的念頭,但總遇不到願意指導程度不好學生的老師,而且我總覺得若對知識沒有全盤理解、依靠作弊或是一知半解的得到學分,倒不如從頭到尾都不要讀。

這樣的性格使得我總是遊走在退學邊緣,但幸好有修一些營養學分所以讓我還能繼續讀到大三。過去主科都被死當的枷鎖,導致當初別人大三都把重心轉移到考研究所上時,我卻還要為了沒什麼意義的畢業學分混課堂時間,雖然一天讀18小時努力了半學期,但基礎不好加上時間沒有別人的多(別懷疑供需一題要算5分鐘)、加上年後考政大前去文化中心讀書時出車禍(這邊真的要感謝展菖&允玄深夜還陪我去急診室)(家父還以為我考前又跑去哪邊浪,真是令人無言),想當然加入重考部隊並不意外。

第二年也在高昇老師的督促下,在老師的排行榜稍微有點成績、統計也在楚瀚老師的細心栽培下有所成長。當初選校報考時,高昇老師也鼓勵我報考台大,但我執意不想成為家父的模樣(雖然現在覺得他真的是少數非常有實力的管理者),因此大家的第一志願台大,對我反而一點吸引力都沒有,所以當時的第一志願是政大。

印象很深的是,交大經管以(專業科目)平均95分而英文門檻差1分落榜,政大經研以總體整張申論題只拿個位數落榜,也因此FaceBook多了兩則廢文動態(現在看當時的貼文感覺完全沒變)。最後因為覺得南部小孩就要讀南部學校,就選擇了國立中山大學企業管理研究所。

上圖:當年(20160303)在FaceBook貼的廢文(1)
上圖:當年(20160316)在FaceBook貼的廢文(2)

就讀中山大學的期間,我能感受到高雄這座城市全力的為學校提供最好的學習資源(非常推薦卓雍然博士的商業大數據平台),這讓身為南部小孩的我有回到家裡的歸屬感。這份愛,我真的一直心存感激。執筆當下的現在覺得一切都是命運最適當的安排。

.

.

研究所學習歷程

當初選讀MBA的原因,筆者認為MBA修課比較自由(也可以解讀為好混分),應該只有這個學位有時間能不受限制、完全投入來精進自己想強化的領域;另外是個人對MBA三個字有莫名的憧憬。

因此入學後除了顧好系上學科外,筆者在碩一暑假有幸有機會去武漢大學交換、並曾在北京總部的新浪微博產品部門當實習生。實際在互聯網公司實習,看到別人怎麼將商業問題嚴謹的定義成數學問題、並將數學問題透過演算法模擬並測試,著實讓我大開眼界

印象深刻的是筆者在實習final報告時,僅用檢定方法與統計模型驗證自己看到的東西,得到的回饋是:「我知道顯著很棒很重要,但不顯著反而才更應討論為何不顯著不是嗎?」這句話點醒了我做學術與做實務最大的差異並不在方法、而是怎麼思考-實務上能透過簡單推論得到答案,其實就沒有什麼做分析的意義。

量化分析的目的也並不在於佐證自己主觀認定的唯一解(畢竟多次求解本來就會出現很多組最適解)、而是能否透過量化方法觀察來拆分商業問題中的細節,進而得到更多domain上的insight。

筆者舉個例,信用卡有很多種不同功能與用途的產品,若要判斷盜刷是否要依該卡別的目標客群使用習慣來觀察、而非得到一個「喔!在凌晨刷卡的潛在盜刷可能大於白天」,這種小學生都講得出來的結論。

另外,筆者觀察互聯網公司很多分析人員,讀的是商學院學位、但工作內容卻很數學,請教他們的學習歷程後也因此燃起讓我積極往外系修課的動力

上圖:傳說中的985院校圖書館(有很多人,但也沒有到爆滿)
上圖:新浪Town Hall(這才是真的做ML的風氣啊!)
上圖:Stephon Marbury電影首映會(結果現場全都是吳尊迷妹^^)
上圖:每年都會發的新浪生肖玩偶

拜高昇老師及楚瀚老師訓練所賜,讓我在旁聽與修習理工學院的專業課程時,較沒有過多的進入障礙,在碩二那年我在積極修習現代投資組合、實驗設計、統計學習等量化學科同時,更試圖將企研所訓練的個案思維應用在量化分析過程中,得到些許的掌聲也讓我相信我是走在正確的學習道路上的,畢業後也蠻順利的就進到現職公司任職。

.

.

讀完MBA後的心得

我認為身為一位MBA最重要的就是定義屬於自己MBA的定義,而筆者所定義的MBA = Mental Beyond Anyone。這句話表面看似是與他人比較,但筆者想強調的其實是在團隊放棄的時候,要保持繼續做下去的心-我認為一位稱職的MBA就要有能在面對未知領域、團隊陷入困難的時候,能帶領團隊脫離泥沼、繼續往前的能力;更要因每次團隊技能組成不同,MBA反而是要適應各種團隊屬性、並有能力去補足團隊最弱的那塊,這也是MBA開課領域為所有科系最廣、最原始的目的吧。

.

筆者就將自己經驗條列如下供各位參考:

  1. 在ATCC競賽時候就負責當時提案的預算評估(可惜黑客松就GG了)。
  2. 第一份工作內容主要是Server維護、批次管理、串聯各種不同Encoding DB的Data並ETL至單一語系的Server中。(偏Data Engineering)。
  3. 在開發圖論演算法的時候,因為團隊成員有能寫底層的碼農,所以終於有一次能爽爽當PM(耶~~)、思考如何基於DFS算法將各種業務場景記錄下來。
  4. 2019秋季玉山銀行人工智慧挑戰賽,發想各種盜刷可能的業務場景、並把它設計成Gradient Boosting合適的變數,但最後反而靠著抽樣方法衝到前面(感謝楚瀚老師!)
  5. 2020 Shopee Code League的Kaggle系列賽就是tune NN&Tree系(碼農)的角色,當大家的阿拉丁神丁精靈,實現隊友的想法建立各種模型。

.

而我認為抒發負能量與培養長期興趣,才能保持心靈上的長期健康,像我自己是選技擊運動來強化心肺,總之工作這種事情就跟仁李教練說的一樣:操就對了!

上圖:與我最愛的RanLee MuayThai教練!(Photo by Photosnail Lai)
上圖:與教我最多的Aldo冠軍拳王! (Photo by Photosnail Lai)

.

.

資料科學家的工作

其實現在網路上Google就能找到一堆類似「在金融業當資料分析人員是一個什麼樣的體驗?」、「在新創公司當資料分析人員是一個什麼樣的體驗?」這種心得文,撇除筆者認為溝通能力只是基本中的基本(哪個行業不需要溝通能力?),所以我在這邊只講我認為一般人比較不會提到的點:

  1. 數學真的很重要:
    很多人都會說自己想做商業分析師或資料分析師是因為能透過量化分析來論證自己的觀點;先不談那種會把樞紐分析包裝成決策樹的黑科技人員,筆者認為資料分析師可以很會用輪子、但要弄髒手造輪子的能力也是不可或缺的。過去遇過最多的就是在問他算法流程怎麼計算、變數設計可能會有Leakage問題的時候,得到的回覆往往是:「套件算出來就這樣」、「那個問題太工程了超過我的能力範圍」,Hello?資料科學家、數據分析師連自己的東西怎麼算的都不懂,這樣的量化分析可信度還高嗎?如果一昧的靠套件,這樣是否只把能力侷限在『有可用套件才做得出來』的框架中?資料科學走到2020,需到的已經不是import xgboost as xgb、更多的是怎麼接NN系的網絡結構、Ensemble怎麼接會更快更有效率等開發&開放式工程問題,開發要開發的好一定要數學好,這是我認為一位優秀的資料科學家長期必備的核心技能。
  2. 多打比賽,透過比賽能熟悉各種不同產業的資料、學習不同產業的背景知識、遷移各種優秀人才寫出來的代碼風格、看到更多潛在市場機會(疑?)。資料科學是一行每天都有更新的東西出來的領域,透過打比賽可以快速的學習時下最新的模型、認識更多傑出的業界人員,當然打比賽所做的tune模型不過是整個資料科學專案的冰山一角,如何將模型產出轉成一個服務、並落地幫助業務成長,也是不可或缺的技能。

.

上圖:玉山 2019 AI 秋季賽比賽當天團照
上圖:創意作法擂臺賽Present當下(Respect to 昇瑋哥!!!!) (昇瑋哥:指的是前玉山科技長,陳昇瑋,已過世)
上圖:耶!全國第二,~運氣不錯~

.

.

寫在最後

大數據時代下一定會有很多產業的商務模式會有所改變,筆者認為演算法能解決很多問題、前提是人要把問題定義的足夠清楚,因此具有產業知識、善於溝通、對事物抱持任何懷疑的態度、精益求精與不放棄的決心、有紮實的數學能力等以上幾點,是筆者自己努力的目標,筆者認為具備後才有資格當一位資深的資料科學家的條件。

文章的最後還是要再次感謝願意在我一無所有的時候,願意相信我會努力、並耐心指導我的高昇老師&楚瀚老師,讓今天的我覺得不比任何人差。以下分享我的部落格&開源代碼專區,若有更多想要討論的也請不吝透過以下資訊與我聯繫,感謝!

LinkedIn: https://www.linkedin.com/in/ethan-wu-mba

Medium: https://medium.com/@ethan1126.ilink

GitHub: https://github.com/cubatlin

.

.

Gosen後記

Ethan其實是很聰明的孩子,但是就是有些桀驁不馴,簡單說:就是臭屁。但是臭屁也要有臭屁的本事,Ethan就有!我覺得他在大陸互聯網實習,看到了如何運用數理模型來解決問題時,當下一定是很大的震撼!而Ethan的學習力也夠強,讓他看過了,就知道要如何去調整努力方向,再搭配他的小聰明,當然可以走出自己的一片天!很高興,他能在資料處理上,有自己獨特的看法並懂得運用之妙。

中山企管所!是很好的系所!給研究生的小建議:在研究生的生涯裡,如何學習到解決問題的能力才是重點,而不是一直身陷在比較各學校系所的排名!

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s