機器之心原創
作者:張倩
今年的 ACM SIGKDD 知識發現和數據挖掘會議(KDD)已于 8 月 4 日-8 日在美國阿拉斯加州安克雷奇舉行。大會公布了最佳研究論文、最佳應用論文、最佳博士論文、時間檢驗獎、創新獎等諸多獎項。縱觀 KDD 曆年獲獎者可以發現兩個值得關注的現象:1)華人學者在其中占了很大比例,而且其中很多人拿到的是頗具份量的獎項;2)很多獲獎的後起之秀都是之前獲獎大牛的學生,印證了「名師出高徒」這一古話。另外,KDD 的組委會也是臥虎藏龍,隱藏著很多教科書級別的學者。本文就來盤點一下 KDD 大會的這些風雲人物。
頒獎台上的華人學者
最佳論文獎
KDD 最佳論文獎旨在表彰對知識發現和數據挖掘的基本理解起到推動作用的 KDD 大會論文,分爲研究賽道和應用賽道。每個賽道又分爲最佳論文獎和最佳學生論文獎。今年研究賽道的最佳論文獎由康奈爾大學的 Kun Dong、Austin Benson、David Bindel 等人獲得。
Kun Dong 是康奈爾大學數學專業博士生,師從康奈爾大學計算機系副教授 David Bindel。David Bindel 也曾于 2015 年獲得 KDD 最佳學生論文獎。
此外,今年研究賽道的最佳論文亞軍也出自華人學者,由皇家墨爾本理工學院的 Yipeng Zhang 等人獲得。
細數往年,華人學者奪得 KDD 最佳論文獎的例子不勝枚舉,包括:
- 2018 年最佳學生論文:中國科學技術大學 Hongyuan Zhu 等人;
- 2017 年應用賽道最佳論文:西弗吉尼亞大學 Yanfang Ye 等人;
- 2016 年應用賽道最佳論文:雅虎公司的 Dawei Yin 等人;
- 2016 年應用賽道最佳學生論文:墨爾本大學 Yu Sun 等人;
- 2015 年最佳學生論文:康奈爾大學 Wenlei Xie 等人;
- 2014 年研究賽道最佳學生論文:亞利桑那州立大學 Yashu Liu 等人
- ……
創新獎
除了最佳論文,SIGKDD 創新獎也是這一大會頗具分量的獎項,旨在表彰在數據發現和數據挖掘領域做出傑出技術貢獻的研究者,這些貢獻對促進理論和/或商業系統的發展産生了持久的影響。它是數據發現和數據挖掘領域的最高技術獎項,獲獎者往往都是某個領域的學術領袖。
今年的創新獎得主是 IBM T.J. Watson 研究中心傑出研究員 Charu Aggarwal 博士。他因在高維數據、隱私、數據流、不確定數據、圖、文本挖掘、社交網絡等方面的貢獻而受到表彰。
在此之前,過去三年的 KDD 創新獎都被華人學者包攬。他們分別是:伊利諾伊大學芝加哥分校傑出教授劉兵(2018)、加拿大西蒙弗雷澤大學教授裴健(2017)和清華大學數據科學研究院院長俞士綸(Philip S. Yu)(2016)。此外,2004 年 KDD 創新獎頒給了伊利諾伊大學香槟分校計算機系教授韓家炜,他是裴健教授在加拿大西蒙弗雷澤大學的博士生導師。
韓家炜教授
韓家炜教授目前任教于利諾伊大學香槟分校(UIUC)計算機系,他是 IEEE 和 ACM Fellow,曾任美國 ARL 資助的信息網絡聯合研究中心主任。此外,他還擔任過 KDD、SDM 和 ICDM 等國際知名會議的程序委員會主席,創辦了 ACM TKDD 學報並任主編。
韓家炜有「數據挖掘第一人」之稱,他在數據挖掘、數據庫和信息網絡領域發表論文數百篇,在 Google Scholar 上的被引用量接近 17 萬次,h-index 高達 168。他的數據挖掘專著《Data Mining: Concepts and Techniques》(《數據挖掘概念與技術》)成爲數據挖掘國內外經典教材。他曾獲 IEEE ICDM 2002 傑出貢獻獎、2009 年 IEEE 麥克道爾獎(the McDowell Award)等。
俞士綸教授
俞士綸教授現爲清華數據科學研究院院長、美國伊利諾伊大學芝加哥分校(UIC)特聘主任教授。他是 ACM 和 IEEE Fellow、原 IEEE TKDE、ACM TKDD 主編。他在谷歌學術上的 H-index 高達 154,論文被引用量接近 11 萬次,是名列全球計算機科學領域高引作者前十的華人。
他曾于美國 IBM Watson 研究中心工作多年,創建了世界知名的數據挖掘及數據管理部,是 IBM 公司擁有專利最多的人之一。作爲國際數據庫和數據挖掘等領域的先驅之一、國際數據挖掘和數據管理領域的頂尖學者,他在專業領域做出了諸多奠基性工作。
裴健教授
裴健教授目前擔任 KDD 大會主席。他是加拿大西蒙弗雷澤大學計算機學院教授、ACM 和 IEEE Fellow。他的研究興趣集中在研究和開發針對新穎的數據密集型應用的高效數據分析技術。他的研究領域包括數據挖掘、web 搜索、信息檢索、數據倉庫、聯機分析處理、數據庫系統及其在社會網絡和社會媒體、醫學信息學、商業智能等領域中的應用。
除了 KDD 創新獎之外,裴健教授還獲得過 IEEE ICDM 研究貢獻獎(IEEE ICDM Research Contributions Award)。在數據挖掘、數據庫系統和信息檢索方面,裴健是學術界被引用次數最多的作者之一。自 2000 年以來,他在國際頂級學術期刊與會議上發表二百多篇論文,被引用量超過 87000 次。
劉兵教授
劉兵是伊利諾伊大學芝加哥分校傑出教授,ACM、AAAI 和 IEEE Fellow。他的研究興趣包括情感分析、終身學習、數據挖掘、機器學習和自然語言處理等。
除了創新獎之外,劉兵教授還有兩篇論文獲得過 KDD 2015 和 2014 的時間檢驗獎,分別是發表于 2004 年的《Mining and summarizing customer reviews》和發表于 1998 年的《Integrating Classification and Association Rule Mining》。
論文 1:https://www.cs.uic.edu/~liub/publications/kdd04-revSummary.pdf論文 2:https://dl.acm.org/citation.cfm?id=3000305
劉兵教授曾在 2013 年-2017 年間擔任 KDD 主席,在今年的 KDD 大會上擔任時間檢驗獎主席,此外,他還是許多數據挖掘頂會的程序主席,包括 ICDM,CIKM,WSDM,SDM 和 PAKDD 等。
服務獎
SIGKDD 服務獎旨在表彰在數據發現和數據挖掘領域提供傑出服務的個人或團隊,包括專業協會和會議的運營、學生和專業人士的教育、資助研發活動等專業服務。
今年的服務獎得主是 IBM Watson Health 傑出工程師 Balaji Krishnapuram,他因在開發機器學習産品改善醫療環境方面的社會貢獻而受到表彰。
與上述創新獎相同,服務獎的獲獎者也包含多位華人教授,包括:香港科技大學教授楊強(2017)、加州大學洛杉矶分校教授 Wei Wang(2016)、加拿大西蒙弗雷澤大學教授裴健(2015)、新加坡電信公司旗下全資子公司 Dataspark CTO Ying Li(2012)以及美國路易斯安娜大學教授吳信東(2004)等。
獲得過 KDD 服務獎的華人教授(從左到右:吳信東、Ying Li、裴健、Wei Wang、楊強)
一脈相傳的「名師」與「高徒」
從 1998 年正式成爲 ACM 的一個特別興趣小組(SIG)以來,KDD 已經走過了二十多個年頭。最早的一批發起人和獲獎者已經成爲數據挖掘領域的學術領袖,在他們的指導下,一個個後起之秀正迅速成長起來,成爲 KDD 大會和數據挖掘領域的新生力量。
今年的 KDD 時間檢驗獎就頒給了斯坦福大學計算機科學副教授 Jure Leskovec 和他的導師卡內基梅隆大學計算機科學教授 Christos Faloutsos 等人。KDD 時間檢驗獎旨在表彰過去十年對數據挖掘研究社區産生重大影響的 KDD 大會傑出論文。他們的獲獎論文是 2007 年合著的《Cost-effective Outbreak Detection in Networks》。
論文鏈接:https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
Jure Leskovec(右)和他的導師 Christos Faloutsos(左)。
Jure Leskovec 此前也有一篇論文獲得 KDD 時間檢驗獎。上次的獲獎論文是 2005 年發表的《Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations, KDD 2005》,這篇論文曾是當年的 KDD 最佳論文,又在 2016 年拿到了時間檢驗獎。
論文鏈接:https://www.cs.cornell.edu/home/kleinber/kdd05-time.pdf
Christos Faloutsos 教授拿過各種大會的多個時間檢驗獎,包括 SIGCOMM 時間檢驗獎(2010),兩個 KDD 的時間檢驗獎、VLDB 時間檢驗獎(1997)、ECML/PKDD 時間檢驗獎(2015)等。此外,他還在各種會議上拿到過 20 多次最佳論文獎。
除了 Jure Leskovec,Christos Faloutsos 教授指導的學生還有多人拿過 KDD 最佳博士論文獎或最佳博士論文獎亞軍,包括:
- Jimeng Sun(KDD 2008 最佳博士論文獎亞軍)
- Lei Li(KDD 2012 最佳博士論文獎亞軍)
- U Kang(KDD 2013 最佳博士論文獎優秀獎)
- Danai Koutra(KDD 2016 最佳博士論文獎,她在今年的 KDD 大會上擔任 Tutorial Chair)
- Alex Beutel(KDD 2017 最佳博士論文獎亞軍。他也是 KDD 2014 最佳論文獎的得主)
- Evangelos E. Papalexakis(KDD 2017 最佳博士論文獎亞軍)
- ……
Jure Leskovec 指導的學生也很出色。他在斯坦福大學的學生 Tim Althoff 拿到了今年的最佳博士論文獎。他的獲獎論文是《DATA SCIENCE FOR HUMAN WELL-BEING》
論文鏈接:http://timalthoff.de/docs/althoff-2018-phd_thesis.pdf
Tim Althoff
Tim Althoff 博士畢業于斯坦福大學,目前在華盛頓大學計算機科學和工程學院擔任助理教授。他致力于通過改進計算方法來爲人類謀福祉,其研究方向結合了數據挖掘、社交網絡分析和自然語言處理。除了 KDD 最佳博士論文外,他的論文還拿到過國際醫學信息學學會(International Medical Informatics Association)的最佳論文。
除了 Christos 教授的弟子們,KDD 最佳博士論文獎的獲獎者中也有不少是韓家炜教授、卡內基梅隆大學邢波教授等大師的學生。
其中,韓家炜教授的學生包括 2011 年最佳博士論文獎亞軍 Tianyi Wu、2013 年最佳博士論文獎得主 Yizhou Sun、2015 年的最佳博士論文獎得主 Chi Wang 以及今年最佳博士論文獎亞軍張超等;而 2015 年最佳博士論文獎亞軍 Qirong Ho、2014 年最佳博士論文獎得主 Gunhee Kim 等則是邢波教授的高徒。
主席團裏的大牛
除了各大獎項背後的大牛外,KDD 的主席團裏也是臥虎藏龍,他們中也有不少人拿到過 KDD 的各種獎項。
大會聯合主席 Vipin Kumar
Vipin Kumar 是美國明尼蘇達大學的教授。他是 IEEE、AAAS、ACM、SIAM Fellow。
他的研究興趣涵蓋數據挖掘、高性能計算及其在氣候/生態系統、醫療中的應用。他的研究論文超過 300 篇,合著的書達到十部,其中包含兩本教科書:《Introduction to Parallel Computing》和《Introduction to Data Mining》,這兩本書在世界範圍內廣泛傳播,已經被翻譯成了多種文字。
除了 KDD 2019 之外,Kumar 還是其他許多數據挖掘、大數據、高性能計算領域國際大會的主席或區域主席,包括 2015 年 IEEE 國際大數據大會(IEEE International Conference on Big Data)、2002 年 IEEE 國際數據挖掘大會(IEEE International Conference on Data Mining)、2001 年並行與分布式處理國際研討會(International Parallel and Distributed Processing Symposium)等。此外,Kumar 還參與創辦了 SIAM 數據挖掘國際大會(SIAM International Conference on Data Mining)並擔任《統計分析與數據挖掘(Statistical Analysis and Data Mining)》雜志的聯合主編。
2012 年,Vipin Kumar 獲得 KDD 創新獎。此外,他還獲得過 IEEE 計算機學會頒發的高性能計算最高獎項——西德尼·馮巴克獎(Sidney Fernbach Award)(2016)。他的學生 Gaurav Pandey 獲得過 2011 年 KDD 最佳博士論文獎。
程序委員會主席(PC Chair)George Karypis
George Karypis 是美國明尼蘇達大學教授,因在數據挖掘、推薦系統、高性能計算等領域的創造性貢獻而聞名。
他在聚類、圖挖掘、模式識別、協同過濾、圖劃分等領域的許多論文都有很高的引用量。他的 h-index 高達 91,論文被引用量超過 65000 次。此外,他還通過一系列高質量的軟件包(如 CLUTO、METIS)將自己的理論應用到實踐中,他開發的軟件已被納入 200 多種不同的商業軟件系統。
他曾獲「IEEE ICDM 研究貢獻獎」,該獎項是 IEEE 對數據挖掘領域研究成就的最高認可。此外,他還獲得過「IEEE ICDM 10 年最高影響論文獎」以及國際萬維網大會頒發的「首爾時間檢驗獎(Seoul Test of Time Award)」,獲獎理由分別是開發了挖掘大型圖數據庫的計算高效算法和創建探索條目間關系的新型推薦系統。
博士論文獎主席 Yehuda Koren
Yehuda Koren 是谷歌的研究科學家,他曾在雅虎擔任高級研究科學家,研究興趣包括推薦系統、數據挖掘、機器學習、信息可視化等。
他帶領的團隊在 Netflix Prize 比賽中拿到過兩次進步獎(progress award),參與的團隊拿到過 2009 年 Netflix Prize 比賽的百萬美金大獎。當年比賽的題目是 netflix 電影評分預測,Yehuda Koren 所在團隊提出的算法在測試集上的均方根誤差爲 0.8567,比比賽開始時的最高成績提高了 10.06%。Yehuda Koren 等人當年做出的算法是基于矩陣分解的算法,優于傳統的最近鄰基礎,已經成爲現在幾乎所有推薦系統的基礎。
算法有關論文:https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf
2018 年,Yehuda Koren 有關推薦算法的論文拿到了 KDD 的時間檢驗獎。
論文鏈接:https://www.cs.rochester.edu/twiki/pub/Main/HarpSeminar/Factorization_Meets_the_Neighborhood-_a_Multifaceted_Collaborative_Filtering_Model.pdf
結語
當然,以上列舉的研究者只是 KDD 大會風雲人物的冰山一角,還有更多的研究者值得我們關注,歡迎在留言區進行補充。