2013年1月12日,第34期百度技術沙龍在北京成功舉行。在《機器學習之多媒體方向的思考》的主題下,百度多媒體部副總監余凱分享了百度深度學習的進展以及在語音圖像中的應用。
作為人工智能領域的知名專家,余凱是國際會議ICML和NIPS的領域主席,也是眾多其他頂級國際會議程序委員會的成員、國際頂級雜志的專家評委,擁有幾十項專利和專利申請,對深度學習有很深的理解。

圖片 1 人工智能領域知名專家、百度多媒體部副總監余凱
機器學習與深度學習
機器學習(Machine Learning)是人工智能的核心,研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。深度學習(Deep Learing)是機器學習研究中的一個新的領域,它被引入到機器學習中使機器學習更接近于其原始的目標——人工智能,因此,近年來非常火爆。
深度學習根源于傳統的“神經網絡”。“神經網絡”可以追溯到20世紀五十年代后期。當時,弗蘭克·羅森布拉特試圖建立一種類似機械大腦的感知器,可以“感知,識別,記憶,像人的思維做出響應的機器”。在一定范圍內這個系統能夠識別一些基本的形狀,如三角形和正方形。80年代后,神經網絡一度發展,但成效不是太大。到2006年,神經網絡才在“深度學習”的創新下取得突破進展。
余凱介紹了深度學習的原理。深度學習是從對人類神經的仿生上進化而來,如人類的視覺皮層也是包含多個分層的。深度學習的重要創新在于建立模型逐步學習,試圖確定下來低層次的分類(如字母),然后再嘗試學習更高級別的分類(如詞)。深度學習的主要原理是對特征空間按照層次分層建模,進行深入挖掘圖像和語音特征,由此可以大幅提升識別率。

圖片 2 Deep Learning由仿生人類視覺皮層的多個分層產生
百度的深度學習進展與成果
余凱介紹,百度在2012年夏季開展了深度學習方面的工作,并很快在語音識別和圖像識別方向取得了巨大的成功,同時,在OCR(光學字符識別)、NLP(自然語言處理)、文本檢索等方向也取得了很大的進展。

圖片 3 百度識圖智能認出“李幼斌”
如在人臉識別方面,最困難的是識別照片中的人是誰或者通過照片尋找相似的人。百度在深度學習的基礎上,借鑒認知學中的一些概念與方法,探索出了獨特的相似度量學習方法來尋找圖像的相似性和關聯,能夠做到舉一反三,現在已經應用在百度云相冊(http://xiangce.baidu.com/)的人臉識別和百度識圖(http://shitu.baidu.com/)的人臉相似搜索中。

圖片 4 百度語音助手應用DNN技術識別率超SIRI
如在語音識別方面,百度將深度神經網絡(DNN)技術應用于語音模型訓練中。百度語音助手(http://shouji.baidu.com/voiceassistant/)“語音指令、語音搜索、語音問答”等功能,都是通過深度神經網絡技術(DNN)實現。余凱透露,目前,在內部評測中,百度的語音識別系統的準確率與SIRI和同類應用相比,處于業界領先地位。
深度學習,促進人工智能技術進步
正如2012年12月29日《紐約時報》的頭版報道一樣(http://article.yeeyan.org/view/371738/341235),“深度學習讓機器執行人類的活動,如看、聽和思考,可以模式識別提供了可能性,促進了人工智能技術的進步。”百度技術沙龍也讓眾多的參會者了解到了深度學習這一人工智能前沿技術在中國的發展與應用。
一位參會者表示,“每次參加百度技術沙龍的收獲都很大,這次更加明顯。我非常驚訝,百度在人工智能領域的研究已經有了深刻的積累,絲毫也不比國外的互聯網同行差,甚至在某些領域還超過了國際同行。希望在百度的影響下,我們能更好地應用人工智能領域深度學習這樣的先進技術,讓我們的生活變得更加智能。”
關于百度技術沙龍
百度技術沙龍是由百度主辦的、面向中高端技術人員(開發者、技術負責人、項目經理、架構師)等的線下技術交流活動,每月一期,每期由1個話題,2場演講以及Open Space開放討論環節組成。每期沙龍會邀請1名百度講師分享百度在特定技術領域的成果及實踐經驗,同時還會邀請1名優秀的互聯網公司或企業技術負責人對同一話題進行分享。
百度技術沙龍微博地址:http://weibo.com/baidutech
百度技術沙龍主頁:http://salon.baidu-tech.com