神經網絡強大的表示學習能力真的在結構化數(shù)據(jù)上無法展現(xiàn)威力嗎?近日由國內的數(shù)據(jù)科學平臺領導廠商——九章云極發(fā)布的開源項目DeepTables正在打破這個局面。DeepTables(簡稱DT)經過大量的測試驗證,在使用相同數(shù)據(jù)訓練模型的條件下,DT在70%以上的測試數(shù)據(jù)集上超越XGBoost和LightGBM,DT團隊后續(xù)會發(fā)布詳細的測試報告。在3月31日剛剛結束的Kaggle競賽Categorical Feature Encoding Challenge II 中DT團隊獲得了第1名的成績,其中DT的一個單模型得到第3名,這在Kaggle比賽動則用數(shù)十數(shù)百個模型Ensemble的標準動作下,單模型取得如此突出的成績實屬不易。
Public Leaderboard
Private Leaderboard
本屆比賽來自全球的參賽隊伍超過1100支,其中不乏Bojan Tunguz, Sergey Yurgenson, KazAnova 這些Kaggle頂級大神的身影,Google的Auto Tables也參加了本場比賽但排名在300以外,所以雖然是Playground類競賽,但這個冠軍的含金量依然不低,DeepTables正在為深度學習正名。
實際近年來深度學習在結構化的一些細分領域里已經開始嶄露頭角,在CTR預測和推薦系統(tǒng)方面,神經網絡算法利用其在高維稀疏特征上先進的表示學習能力逐步超越了傳統(tǒng)機器學習算法。
◆ 從2015年Google公司的Wide&Deep網絡開始,到Deep&Cross、PNN、DeepFM、xDeepFM這些模型不斷刷新在公開數(shù)據(jù)集上的紀錄。研究人員也在不斷嘗試將CV、NLP上的技術引入到結構化領域。
◆ 2019年北京大學的研究團隊提出的AutoInt網絡應用了大名鼎鼎的BERT中Multi-head Attention 思想,有效的提升了結構化數(shù)據(jù)自動特征生成和提取的效率,并且一定程度上解決了深度學習缺乏解釋性的問題。
◆ 華為諾亞實驗室提出的FGCNN在利用卷積神經網絡的同時創(chuàng)新性的提出Recombination Layer將局部特征組合進一步重組,有效的避免了CNN過于關注局部特征交互的短板,F(xiàn)GCNN在華為AppStore的推薦系統(tǒng)中大幅提升原有算法的表現(xiàn)。
以上成果確實足以讓業(yè)界重拾深度學習在結構化數(shù)據(jù)上的信心,但目前這些成果主要在少數(shù)的互聯(lián)網巨頭企業(yè)中發(fā)揮價值,對于大多數(shù)企業(yè)和數(shù)據(jù)科學家來說只是看上去很美,想要應用到實際的建模工作中面臨著不小的代價。
1)這些模型大多落在論文層面,部分論文雖然提供了用于驗證模型的源碼,但想把這些源碼應用到實際業(yè)務上,代碼改造的工作量和難度都不小。
2)結構化和非結構化數(shù)據(jù)之間最明顯的區(qū)別是在結構化領域每一個數(shù)據(jù)集的語義空間和數(shù)值的物理含義都有所不同,同一個模型在不同數(shù)據(jù)集上的表現(xiàn)有時天差地別,常常需要同時評估各種不同模型才能找到最優(yōu)方案,這也進一步放大了第1點中提到的工程代價。
3)上面提到的大部分模型重點解決的是高維稀疏的類別型特征的學習能力,對于連續(xù)型的數(shù)值特征關注有限,這個部分恰恰是GBM模型的殺手锏,因此遇到以連續(xù)型特征為主的數(shù)據(jù)集這些模型往往不盡人意。
九章云極的研發(fā)團隊基于以上痛點,加上長期服務于金融行業(yè)所積累的經驗開發(fā)并且開源了DeepTables深度學習工具包,目前后端計算框架支持Tensorflow2.0以上版本。
DT極其易用,僅5行代碼即可完成任意一個數(shù)據(jù)集的建模工作,數(shù)據(jù)不做任何的預處理和加工也可以完成建模,不管是專家型的數(shù)據(jù)科學家還是沒有建模能力的業(yè)務分析人員,DT都能夠提供開箱即用的卓越性能,這是高度依賴手工特征工程的傳統(tǒng)機器學習算法難以實現(xiàn)的。
另外,DT有著非常開放的架構設計,DT把近年來最優(yōu)秀的研究成果中的關鍵網絡架構抽取出一組神經網絡構件(nets),這些構件可以任意組合出一個新的網絡架構,可以非常簡便的在不同數(shù)據(jù)集上探索最優(yōu)的網絡組合。
同時,DT支持插件式的擴展方式,用戶可以按DT的接口開發(fā)自己的構件和內置的構件融合在一起構成一個新的模型。之前需要幾周甚至上月的時間完成的工作,在DT的助力下幾個小時甚至幾分鐘就可以完成。
DT項目地址
https://github.com/DataCanvasIO/deeptables
DT官方文檔
https://deeptables.readthedocs.io/
DT目前還處于相對早期的階段,剛剛發(fā)布了0.1.9。DT下一個計劃是開放神經架構搜索(NAS)引擎,用AI算法實現(xiàn)在不同的數(shù)據(jù)集上自動搜索最佳的網絡架構,實現(xiàn)真正智能的AutoDL。
擁抱開源的九章云極,旗下的分布式機器學習平臺APS,其開放的技術架構和開源生態(tài)完美融合,受到廣大企業(yè)客戶的青睞。九章云極受益于開源社區(qū),同時也在持續(xù)大力回饋于開源社區(qū)。