產業趨勢 關鍵報告 觀點

60頁PPT看百度人工智能(AI)戰略佈局

中國大陸的 BAT 互聯網巨頭,一般公認百度在人工智慧方面的技術是其中最強的,讓我們看一看百度在今年九月發布的 AI 人工智能戰略佈局,共有 60 頁 PPT,請欣賞 …..

原文出處 :https://weiwenku.net/d/102610887

60頁PPT看百度人工智能(AI)戰略佈局!

數據觀2017-09-15 20:43:12

數據觀導讀:
近日,在清華大學舉辦的2017國際大數據產業技術創新高峰論壇上,百度副總裁、百度AI技術平臺體系總負責人兼百度研究院院長、國際計算語言學協會(Association for Computational Linguistics)前主席王海峰發表了《百度人工智能》的主題演講,以下附PPT全文及詳解,供參看!
以下為完整版PPT:

人工智能是第四次工業革命

從18世紀開始,隨著技術的發展,以及需求的牽引,人類逐漸開始進入技術革命或工業革命。歷史上的工業革命有三次,可以大致歸納為第一次機械化革命、第二次電氣化革命和第三次的信息化革命,而第四次工業革命則是以智能化——人工智能(Artificial Intelligence,英文縮寫為AI)——為標誌的。

回顧一下人工智能的發展歷史,正式的起點是1956年的達特茅斯會議,誕生了AI這個概念。而在1956年之前,已經出現了至今仍然很熱門的一些人工智能方向,例如機器翻譯、自然語言處理、計算機下棋、神經網絡等等。而從AI誕生以來的60多年,人工智能的發展起起落落,從圖中可見一斑。

過去10年,隨著深度學習的出現,更重要的是“數據井噴”,以及數據支撐的算法和計算能力的突破,尤其是在語音、圖像等領域,人工智能再次迎來了發展的新機遇。而這一次的復興即將帶動整個社會產生深層次的變革,這是我們已經可預見的未來。這次人工智能的爆發,在很大程度上是從互聯網開始的,而互聯網帶來了很多需求,包括搜索、社交、購物等等。這些需求越來越多的線上化,同時帶動了數據的線上化。

數據真正線上化以後,也帶動了更多的算法去處理這些數據,而需求和數據的在線化也帶動了整個生態的活躍,進而使越來越多的數據開放出來,依託更強大的計算平臺,結合更好的AI算法,實現計算能力的突破。比如現在大家常用的GPU,利用深度學習、深度神經網絡算法,就有非常強大的優勢。大數據、算法和大計算這三者儼然成為了人工智能復興的必要條件。

百度人工智能已經揚帆起航

百度從做搜索開始,人工智能的研究和發展已經有十幾年了,如自然語言處理基礎的分詞、短語分析等。而全面佈局人工智能大概是在七、八年以前,逐步從NLP、語音、機器學習、圖像等方面開始,時至今天,百度已經形成了一個較完整的人工智能技術佈局,包括基礎層、感知層、認知層、平臺層、生態層和應用層,共計六層。

數據、算法和計算平臺是基礎。感知層對應人的視覺、聽覺,這些能力是直接感知外界。認知層對應的是人類區別於其他生物特有的,比如人的語言能力、人類對知識的總結、理解、提煉、運用等等,以及對人的理解。AI的開放平臺不僅支持百度內部的應用還支持所有的合作伙伴,現已開放了60多個能力,在公司內部,每天大概有幾千億的調用量,而在外部也有數以億計的調用。在此基礎上,百度希望跟所有各行各業的合作伙伴一起打造技術的平臺,形成良性循環的生態,從而生長出各種各樣的創新應用。

百度從做互聯網To C(針對消費者)的產品到開始做大量支持To B(面向企業服務)的應用。這些都依賴於人工智能技術佈局的實現。下面將對每層技術佈局的關鍵技術展開說明。

一、基礎層:大數據、算法和大計算

現在每一個人每一天會產生非常多的數據,如個人的行為、生理狀態的變化,如果要監測、記錄的話,都有非常龐大的數據。況且,每一個人每天都在跟互聯網打交道,或者是自己建網站,或者向網上貢獻數據,甚至在使用互聯網過程中,也會產生很多數據。一定程度上,互聯網已經成為整個客觀世界的鏡像。所以,掌握好、利用好、分析好這些互聯網數據,在很大程度上也是對客觀世界很重要的刻畫和理解。

總體上,大數據技術分為幾個方面,比如數據的採集、提煉以及應用。如果對一個零售商店數據裡的用戶進行建模,某一個用戶可能是白領,另一個是主婦,這樣的行業數據經過分析就可以幫助商戶更好地進行營銷行為。另一方面,百度基礎的計算載體是數據中心,有20多個大型的數據中心,不只是在中國,在世界各地都設立了大數據中心,也有國內最大的GPU集群,有非常強的帶寬和吞吐能力,還有像集裝箱一樣,模塊化的計算中心。

二、感知層:語音、圖像、視頻、AR/VR

語音技術的突破有很多方向,如識別、合成和喚醒,這是我們現在比較看重的,因為市場應用的需求很大。比如語音識別,已經達到97%以上的準確率。現在隨著人工智能應用的深入,在家居場景、車載場景等等,越來越多的語音識別不是對著麥克風說,而是要有一定距離,這就涉及到遠場的語音識別。這與現在手機上的麥克風不一樣,首先會有定位,還有一系列新的技術待解決。合成想做得非常好,特別自然、流暢,而且可以是個性化的,包括把人的情緒變化等都帶進去,就變得非常難。

這裡不只是語音和聲學信號處理問題,同時涉及到對語言的理解、對人的理解,這樣才能做出有情緒、個性化的合成。喚醒,是需要設備的時候就叫一聲,它就知道你要跟它說話,比如家居場景的一個智能音箱或者智能電視,這時候就需要喚醒技術。喚醒技術的困難在於我們要控制誤喚醒,比如在家裡放一個智能音箱,如果不叫它的時候,忽然之間它自己就跳起來了,或者睡覺的時候,有點外界噪音,它就忽然跳起來,體驗會很差。所以,控制住誤喚醒很重要也很有挑戰。

圖像方面,人臉識別是計算機視覺的一個重要方向。人臉分為靜態和動態。靜態,如一張圖片,檢測裡面有沒有人臉,或者有兩張照片,比對一下兩處出現的是不是同一個人,這方面的準確率已經很高了。而識別動態圖像的時候更復雜一點,比如有一段視頻,首先要定位這些人臉,而這裡會產生很多應用,比如在很長的視頻流裡找到一個人。

另外,我們可以對圖像進行識別匹配,做語義的標註,粒度很細,如一幅圖裡很具體地找到其中一個部分是什麼,這裡可以做很多細粒度的圖像識別。OCR是圖像識別裡相對具體的方向,如清華也有OCR方向做得非常好的老師和課題組。現在OCR技術不僅可以掃描書,更可以識別一個表格或者一個很複雜的結構,如發票,不但把裡面的文字識別出來,還可以把一個區域識別出來的文字結構化,整體上會做很多定製化的識別。

視頻不同於圖像有很多權威的數據集,視頻數據集本身還不夠成熟。視頻很多是人工標註好的,比如標題、內容,但是還有很多視頻人工標註不夠完善,這時候就需要視頻語義理解技術把這個視頻標註出來,包括這個視頻到底是哪一類,視頻的標題,如果相對長的視頻,就把其中亮點怎麼樣也摘錄出來。

機器人視覺涉及到怎麼樣做定位,做地圖的重建,包括檢測障礙物等等。領先的SLAM技術,有很多算法。前面講的圖像和視頻技術,在機器人視覺裡都會有應用。增強現實(AR/VR)是一個獨立的方向,但是跟視覺技術有很多關係,通常拍一個照片,會觸發出增強現實的效果,相應地會涉及到三維感知、跟蹤、渲染等技術。

三、認知層:自然語言處理、知識圖譜和用戶畫像

自然語言處理的範圍廣泛,如果細分的話,有很多子領域,較宏觀地可劃分為語言的理解和生成,以及相應的應用系統。一方面要理解人的語言,另一方面要表達,能生成語言。比如,基本的分詞、短語分析,核心的解決思路就是做句法的分析和語義的理解或意圖的理解。如搜索“想去一家寵物醫院,醫院附近要有停車位”。這是人的一種自然的表達,如果讓計算機能夠理解,就要把意圖提取出來,從很複雜的話中分析出其核心意圖,然後再去找相應的答案。

圖示:用傳統信息檢索和搜索算法搜索“蔣英的女兒是誰”和“蔣英是誰的女兒”,會找到同樣的答案,因為傳統的信息檢索是不管語序的。這時候我們就要做真正的自然語言分析和理解,知道它們實際上是在找不同的答案。這背後是知識圖譜的支撐,大家可以看到結構化的圖文並茂的結果。

我們看一篇文章、一本書,這時候不僅僅是理解其中每一句話,而是對整篇文章有一個理解,就是篇章的理解。篇章的理解,可以把整個篇章打上主題標籤,打上各種實體標籤,而這些對計算機來講就是理解了這篇文章。在應用時,為了不同的應用,標籤會有不同的形式,如用在資訊流裡,打上這些標籤以後,就可以匹配用戶的興趣,從而推薦給用戶一篇他可能感興趣的文章。

除了理解句子、篇章、文字以外,人寫一句話、寫一首詩亦或寫一篇文章,都是帶有情感傾向的,所以相應地,我們也做情感傾向的分析,包括用戶看了一篇文章以後,下面有很多評論,這些評論本身我們也會做觀點的抽取。

除了分析、理解以外,還有生成。我們嘗試過寫詩、寫對聯等,比如在手機百度信息流裡看到的文章,很多都是人寫的,但也有很大一部分是機器自動寫成的。我們做過各種測試,用戶基本上分辨不出來到底是人寫的還是機器寫的,這說明機器寫的還是很不錯的。其次,人要與智能硬件展開交互,對話過程中涉及到對“人說的話”的理解和預測人如何說下一句話,相當於理解和生成兩方面都在用,這裡面就是對話管理以及交互的技術。

到目前為止,我們講的都是一種語言,都是中文,但“百度翻譯”是解決多語言問題的,在28種語言之間互譯,互譯的方向大概是700多個,每天有過億次的翻譯請求。同時也結合了語音技術、視覺技術,延伸出了語音會話翻譯、拍照翻譯等等應用。

人類幾千年傳承下來的知識,是人類能一步一步不斷向前進步的原動力,而做這些知識的累積和傳承很重要的載體是知識圖譜,知識圖譜裡面一些基本的單位,如實體,現在我們的知識圖譜已經有幾億個實體,每個實體會有很多屬性,實體與實體之間也會有很多關係,這些關係就構成很多事實,如A和B兩個人可能是老師和學生的關係,這就是一個事實,我們已經積累了幾千億事實。

知識不只是靜態的存取,而且涉及到知識計算和推理。比如,離聖誕節還有多少天,系統知道今天是哪一天,聖誕節是哪一天,系統會以此動態做一個計算。再比如,民航有一些規章,基於這些規章問一個問題,能不能“帶打火機上飛機”,系統會根據這些規章的規則,判斷這個問題的答案是“是”還是“否”。其次,我們要了解用戶本身的需求,所以對用戶畫像也是非常重要的方向。現在百度積累了非常豐富的用戶畫像,有非常多細分的標籤,如一個人可以從人口屬性、行為習慣、長期興趣、位置、短期意圖等五個維度去刻畫,形成初級的用戶畫像,構建個體模型。

四、平臺以及生態層

這一層更多集中在百度大腦(ai.baidu.com),完整的生態包括雲和端兩大部分。百度雲是很大的計算平臺,不只是百度可以用,而且開放給所有的合作伙伴,變成基礎的支撐平臺,上面有百度大腦的各種能力。同時還有一些垂直的解決方案,比如基於自然語言的人機交互的新一代操作系統,以及與智能駕駛相關的Apollo。整車廠商可以調用其中他們需要的能力,汽車電子廠商也可以調用他們需要的相應能力,大家共建整個平臺和生態。

五、應用層

語音搜索,是典型的在搜索上引入一些AI能力之後的產品形態,這裡不是一個“語音識別+簡單的搜索”,而是我們直接語音輸入我們想要的字的時候,如果出現多音字,如儷、莉,就會出現錯誤,但如果用戶說:“茉莉的莉”,語音糾錯就會自動修改成“莉”,然後找到用戶最終想要的答案。所以這就需要很多相關技術的支持。圖像搜索也是,我們做了很多圖像搜索相關的嘗試。

例如,找題很困難,很多學生做題,題裡有圖、有公式,想把內容輸入進去就很難,所以拍照就變成特別方便的方式,這裡就會結合OCR的技術,對圖像做識別。智能問答、個性化推薦等同樣是綜合了多種AI能力,如知識圖譜、NLP、用戶理解等,把答案或資訊更直觀、更有針對性地展現給用戶。除了互聯網應用,我們也在嘗試AI能力與各行各業的結合,如智能客服、智慧機場等。

人工智能正在成為這個時代技術變革的核心驅動力,AI在To B領域的滲入將會給各行各業帶來革命性的改變,也會對人們的日常生活產生巨大的影響。人工智能應用廣泛,其實際作用絕不僅僅在互聯網,就像我們已經很難想象任何一個行業離開電該如何運轉一樣,人工智能也會是新時代的電力。

可以預見,人工智能必將無處不在。

0 comments on “60頁PPT看百度人工智能(AI)戰略佈局

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

%d 位部落客按了讚: