海量公司首席科學(xué)家、博士周富秋在兩岸數(shù)字內(nèi)容及產(chǎn)業(yè)孵化論壇上作主題演講(視頻截圖)
很高興今天下午能夠聽(tīng)到尤其在游戲行業(yè)里關(guān)于云計(jì)算的實(shí)質(zhì)性應(yīng)用。因?yàn)樯蟼(gè)月我參加了全國(guó)第十屆互聯(lián)網(wǎng)大會(huì),我聽(tīng)的最多的是大家談概念,我可以直白的講,大陸有一個(gè)毛病就是喜歡炒概念,沒(méi)有真正實(shí)質(zhì)性的去談到一些應(yīng)用。我的結(jié)論是參加第十屆互聯(lián)網(wǎng)大會(huì),聽(tīng)眾非常多,但是他們談的更多是云的概念而不是云的計(jì)算。就想起了什么都是浮云。今天很高興能夠聽(tīng)到很多新的想法。
如果真正要談到云計(jì)算,實(shí)際上最初提出云計(jì)算概念是24年前提出來(lái),當(dāng)時(shí)實(shí)際上是云計(jì)算的雛形,由于種種原因沒(méi)有付諸實(shí)施。隨著時(shí)代的變化,IT行業(yè)的變化,如果追溯到遠(yuǎn)一點(diǎn)60年代IBM推出大型計(jì)算機(jī),現(xiàn)在我們看得最多的是每個(gè)人手上拿的移動(dòng)設(shè)備,平板電腦等等。另外一個(gè)是互聯(lián)網(wǎng),互聯(lián)網(wǎng)的興起和發(fā)展尤其是在大陸,在臺(tái)灣提出互聯(lián)網(wǎng)比較早一些,真正互聯(lián)網(wǎng)在國(guó)內(nèi)的興起是1996年,我記得1995年從美國(guó)回來(lái)的時(shí)候,很多人問(wèn)我什么是互聯(lián)網(wǎng),甚至有人問(wèn)我什么是電子郵件,短短的16年期間互聯(lián)網(wǎng)在大陸簡(jiǎn)直是蓬勃發(fā)展,現(xiàn)在的興起簡(jiǎn)直是勢(shì)不可當(dāng),滲入生活當(dāng)中的各個(gè)層面。但是更大的問(wèn)題是什么呢?互聯(lián)網(wǎng)的興起,我認(rèn)為最大的弊病在于數(shù)據(jù)急劇增加,我對(duì)現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)的增加最大的概括,互聯(lián)網(wǎng)給我們的生活帶來(lái)陽(yáng)光,但是只有幾屢陽(yáng)光,還不是充滿陽(yáng)光,就像一首歌講的還有很多陰霾,就是多、雜、亂、難。我們實(shí)際上很多人在遭受一種病癥就是信息污染綜合癥。我們十年以前、十五年以前、二十年以前是遭受信息匱乏的病癥,現(xiàn)在是信息太多。怎么辦?我談到兩個(gè)原因,計(jì)算平臺(tái)的轉(zhuǎn)移和互聯(lián)網(wǎng)的興起,在呼救云計(jì)算。
我認(rèn)為談云計(jì)算更多在計(jì)算上下功夫,如果現(xiàn)在是這樣的現(xiàn)狀,互聯(lián)網(wǎng)大量的信息需要超級(jí)的計(jì)算模式去解析它,去分析它,找出它真正能夠給人們的生活和工作帶來(lái)價(jià)值的東西提供給我們的客戶。這就是我們海量信息技術(shù)有限公司致力于追求的,我們有智能計(jì)算的手段去處理海量的互聯(lián)網(wǎng)的信息,把這個(gè)平臺(tái)建立在云計(jì)算的框架里,F(xiàn)在最大的問(wèn)題是看到一大堆問(wèn)題,真正要分享很難,谷歌兩位年輕人很厲害,他們說(shuō)建立谷歌的目的是梳理世界上的信息,使之在全球范圍內(nèi)可得。是要梳理它,不是說(shuō)把這個(gè)東西給你,現(xiàn)在我們?cè)诠雀韬桶俣饶玫揭淮蠖言紨?shù)據(jù)的羅列,看到第三頁(yè),我想我看到第二頁(yè)就不想看了。怎么讓計(jì)算機(jī)去處理,真正解決我們的社會(huì)問(wèn)題。這就是我認(rèn)為最關(guān)鍵的智能計(jì)算帶來(lái)的社會(huì)價(jià)值。
以前我們關(guān)心更多的是技術(shù)上的東西,我們應(yīng)該轉(zhuǎn)移態(tài)度多關(guān)注社會(huì)上的問(wèn)題;谶@一點(diǎn),我認(rèn)為將來(lái)的互聯(lián)網(wǎng)是什么樣子?很多人都講是移動(dòng)化的,無(wú)國(guó)界的,互動(dòng)性的,互聯(lián)網(wǎng)將來(lái)也是不可分割的一部分,我認(rèn)為更關(guān)鍵的是怎么處理這些數(shù)據(jù),這么多信息怎么去解析它,我提出一個(gè)觀點(diǎn)就是一定要智能化、結(jié)構(gòu)化的互聯(lián)網(wǎng),這才是將來(lái)的方向,這個(gè)不謀而合和硅谷的大師凱文講的一樣,不會(huì)太好,但是不一樣。不一樣在什么地方?用三個(gè)字來(lái)解釋,首先是聰明、智能,互聯(lián)網(wǎng)能看到東西,能理解數(shù)據(jù),能歸納數(shù)據(jù),能篩選數(shù)據(jù),給出的是我們所需要最終的知識(shí)和情報(bào),而不是一大堆原始的東西。二是更加個(gè)性化,因?yàn)槲覀兪袌?chǎng)的細(xì)分。三是無(wú)處不在,一天24小時(shí)。這是未來(lái)互聯(lián)網(wǎng)的憧憬,我認(rèn)為這完全符合我們所打造的。
我們已經(jīng)實(shí)現(xiàn)了計(jì)算機(jī)的互聯(lián),在80年代、90年代初的時(shí)候是用的大型機(jī),然后是用了PC,基本上可以把互聯(lián)網(wǎng)上相互之間的電腦連接起來(lái),現(xiàn)在我們做到網(wǎng)頁(yè)互聯(lián),谷歌和百度就是,把同樣的信息分類出來(lái),我可以在網(wǎng)站里查到我的信息,可以從我的電腦聯(lián)系到另外一臺(tái)電腦。但是有一點(diǎn)沒(méi)有做到,就是讓互聯(lián)網(wǎng)更加智能,就是把網(wǎng)頁(yè)里談到的東西聯(lián)系起來(lái),這就非常難了。就是讓它智能化,網(wǎng)頁(yè)里提到的事物之間到底有什么關(guān)系,這一點(diǎn)是更重要的。將來(lái)我們的互聯(lián)網(wǎng)是語(yǔ)義網(wǎng)絡(luò),是數(shù)據(jù)的網(wǎng)絡(luò),將來(lái)呈現(xiàn)在我們面前是一個(gè)網(wǎng)狀的東西,而不是豎狀的。我們期望互聯(lián)網(wǎng)將來(lái)的數(shù)據(jù)是結(jié)構(gòu)化,是相互關(guān)聯(lián)的。一個(gè)頁(yè)面上的概念和另外一個(gè)頁(yè)面上的概念是相關(guān)的。提到的人、事、物都有獨(dú)一無(wú)二的身份,有獨(dú)一的屬性。我看到網(wǎng)頁(yè)上有姚明,它談的是一個(gè)人,跟NBA有關(guān)系,跟上海球隊(duì)有關(guān)系等等,這就是互聯(lián)網(wǎng)賦予人理解文本的這種解釋。比如讀到北京,互聯(lián)就就知道它是一個(gè)地名,有經(jīng)度、有緯度,有人口等等。不是做不到,而是必須要做到。
所以我們海量公司一直在追求這個(gè),我們一定要把互聯(lián)網(wǎng)上的數(shù)量變成質(zhì)量,要從信息服務(wù)轉(zhuǎn)化為知識(shí)獲取。比如一個(gè)老板有一個(gè)秘書(shū),老板提出需求,你給我找一個(gè)東西,找一個(gè)我做抉擇的依據(jù),秘書(shū)第二天拿一大堆的資料給他,這是一種解決方案。另外一種解決方案可能是通過(guò)一個(gè)團(tuán)隊(duì)的工作,把一大堆的資料濃縮成一個(gè)表格,我想老板肯定是喜歡第二種做法。我們希望這個(gè)壓縮的工作讓機(jī)器去做,不是做不到,是能夠做到。以內(nèi)容為紐帶,將網(wǎng)絡(luò)搭成一個(gè)語(yǔ)義邏輯整體。最后讓機(jī)器讀懂互聯(lián)網(wǎng)。機(jī)器能看懂互聯(lián)網(wǎng)上的內(nèi)容。
要這樣做一定是依賴于云計(jì)算大的框架,四年以前還沒(méi)有興起云概念的時(shí)候,剛才大家談到IAAS、PAAS、SAAS,我們已經(jīng)基于云計(jì)算大框架,根據(jù)客戶提出的對(duì)數(shù)據(jù)加工的需求,我們提出了云的采編服務(wù)。城邦的公司肯定他們的編輯要處理大量的工作,而且很多大量的工作是用手工做的,我們能不能讓機(jī)器做一些案頭工作,把編輯做的找轉(zhuǎn)編發(fā)這些進(jìn)行智能化,這就是云采編服務(wù)。還有云凈化服務(wù),國(guó)務(wù)院一再?gòu)?qiáng)調(diào)不能有不良信息、色情的信息、違法的信息在網(wǎng)上散發(fā),很多網(wǎng)站很緊張,錄用一大批小姑娘、小伙子成天在這兒看,看到不好的就刪掉。我們提出一個(gè)云計(jì)劃的凈化服務(wù),我們可以用機(jī)器來(lái)刪除,我們刪掉的目標(biāo)已經(jīng)做到95%。我們可以看看客戶群里已經(jīng)有這樣的反饋,它可以做到95%到98%的機(jī)器凈化。而只提出2%到5%讓客戶進(jìn)行審核。還有云發(fā)布也是基于云計(jì)算的發(fā)布,可以提高網(wǎng)站的流量等等。我們還推出我一直比較希望推出的通過(guò)這個(gè)平臺(tái)的建立,能夠推出一個(gè)云的標(biāo)引,數(shù)據(jù)來(lái)了以后怎么給數(shù)據(jù)打上標(biāo)簽,讓這些數(shù)據(jù)更加智能化。云的標(biāo)簽,對(duì)出版商、對(duì)網(wǎng)站,因?yàn)槲乙郧霸诿绹?guó)工作了15年,處理了大量的美國(guó)200年的數(shù)據(jù)庫(kù),因?yàn)槭欠墙Y(jié)構(gòu)化的文本,怎么把它結(jié)構(gòu)化,就是必須打上標(biāo)簽,就便于后端和前端用戶進(jìn)行檢索和分析。
這WOS平臺(tái)應(yīng)用架構(gòu)圖。我們采用了很多業(yè)界的標(biāo)準(zhǔn)東西,最終的目的是什么?是希望客戶提供所需要的信息。如果客戶來(lái)了以后,他提出信源,有很多不同的信息來(lái)源,這些是非結(jié)構(gòu)化的,這些是不同文本和格式,通過(guò)我的平臺(tái)就把它轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),這個(gè)結(jié)構(gòu)化的數(shù)據(jù)就是大家談的RDF,大量的文本來(lái)了以后,要變成一個(gè)表格一樣的東西,變成幾行字來(lái)解決。知道里面提到的人事物,因?yàn)槲谋就沁@樣的,自然語(yǔ)言往往是這樣的,在談事情的時(shí)候必須要提到人,必須要提到專有名詞,必須要提到時(shí)間、地點(diǎn)等等。我們通過(guò)智能化處理以后,人與物、人與人都建立語(yǔ)義管理,這樣我們對(duì)人的行為進(jìn)行分析,我們可以進(jìn)行鏈接和推送服務(wù)。
舉一個(gè)例子,中文要做到真正讓中文能夠讓機(jī)器理解中文,首先要把中文分詞分清楚,你看不出中間這個(gè)詞是怎么分的,可以說(shuō)乒乓球拍賣完了,也可以說(shuō)是乒乓球,拍賣完了。這是不一樣的。給大家看一下怎么用智能的方法去理解一篇文章,首先分詞很重要。所謂智能分詞、命名實(shí)體、語(yǔ)義網(wǎng)。比如寧?kù)o這個(gè)詞,比如寧?kù)o的夏天、寧?kù)o的夜晚,往往從這個(gè)理解,我們的機(jī)器也按照這個(gè)方向理解。往往在娛樂(lè)圈里,在中國(guó)大陸寧?kù)o是一個(gè)很有名的演員,我能不能在一篇文章里把寧?kù)o分出來(lái),它不是一般的詞,而是指一個(gè)人名,然后給她建立關(guān)系,她跟紅河谷有關(guān)系,她演過(guò)的所有電視劇和電影有關(guān)系,而且和其他的明星有關(guān)系等等。智能分詞從這兒做起。
再舉一個(gè)例子,有一個(gè)客戶找到我們,說(shuō)我是幫助企業(yè)尋找廣告代言人,一般廣告代言人都找明星,我設(shè)廣告代言人所設(shè)定的明星在一個(gè)時(shí)間段里,我們通過(guò)智能分析,它給我們兩個(gè)人,一個(gè)是王菲,一個(gè)是李亞鵬,我在想大陸都知道這是一對(duì)很有名的夫婦。他們的曝光率在這四個(gè)點(diǎn)上,第一個(gè)點(diǎn)把關(guān)鍵詞和特征詞看一下,這個(gè)點(diǎn)他們談什么,有什么具體的題目,這個(gè)點(diǎn)和這個(gè)點(diǎn)上是什么,在這個(gè)時(shí)間段里他們倆在網(wǎng)絡(luò)上的曝光率就是這樣的狀態(tài)。然后給了我們上千個(gè)影視明星,他就非常高興,說(shuō)可以幫助企業(yè)很快的找到這個(gè)新聞的熱點(diǎn),怎么發(fā)現(xiàn)新聞的熱點(diǎn),根據(jù)名人,然后進(jìn)行跟蹤,最終幫助他們篩選出要做廣告代言人的選擇。
還有在垂直行業(yè),有一個(gè)醫(yī)療網(wǎng)站叫“好大夫在線”,他們每天要收到成千上萬(wàn)份不同的客戶在網(wǎng)上提出的需求,他描述我到底身體有哪些不適,有哪些病狀和問(wèn)題,可是描述得往往不專業(yè),不會(huì)用專業(yè)的醫(yī)療詞匯等等。這樣的話,好大夫在線抓住這個(gè)時(shí)機(jī),因?yàn)橛泻芏嗑W(wǎng)民年齡大了就希望自己能夠在網(wǎng)上得到醫(yī)療的咨詢,就招了一大批有醫(yī)療背景的人坐在那里分診,這個(gè)網(wǎng)站可以分400條不同的病例,網(wǎng)民提出的需求到底是哪種病,分給哪個(gè)醫(yī)院,哪個(gè)大夫都是通過(guò)人工的。他們找到我們,我們做了關(guān)鍵的幾步,把大量的網(wǎng)上談到醫(yī)療方面的信息進(jìn)行抽取,找了專業(yè)詞匯,找了一些模糊的地方,然后進(jìn)行對(duì)比,基本上把網(wǎng)站所需要用人去處理的分診系統(tǒng)基本上95%替代。還能夠根據(jù)他的病癥提出不同的解決方案,比如哪個(gè)醫(yī)院,哪個(gè)大夫更有效等等。
我們?cè)谝苿?dòng)行業(yè)當(dāng)中,我拿著手機(jī),將來(lái)拿著手機(jī)什么都沒(méi)有,只要我提出需求,我要得到什么就得到什么。這也是凱文凱利夢(mèng)寐以求的。比如拿著手機(jī)看到樓房,通過(guò)衛(wèi)星定位知道我在什么地方,這是基本上能夠?qū)崿F(xiàn)的。更關(guān)鍵的是這片樓里在干什么,有什么活動(dòng),有什么樣的商店,有什么樣的影院,有什么樣的餐飲等等。這從云當(dāng)中獲得,這些都是經(jīng)過(guò)結(jié)構(gòu)化處理的,經(jīng)過(guò)海量的結(jié)構(gòu)化處理。把結(jié)構(gòu)化處理后的信息能不能夠疊加在手機(jī)上,讓它知道最終能夠知道到底需要什么?梢钥闯鲞@一片的樓的價(jià)格比另一片樓的價(jià)格更低或者更高等等。這都是應(yīng)用云計(jì)算來(lái)做。最關(guān)心的是怎么從網(wǎng)絡(luò)當(dāng)中獲取信息。
“云”中的智能計(jì)算,在互聯(lián)網(wǎng)當(dāng)中怎么做智能計(jì)算?現(xiàn)在的互聯(lián)網(wǎng)不再是PGC占主導(dǎo)地位,就是專業(yè)人士知道的東西,現(xiàn)在已不占主流,關(guān)鍵是UGC,這個(gè)非常龐大,而且非常亂,我們一定要對(duì)這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、智能化的處理以后,它才能夠發(fā)揮作用,才能夠從云中得到圖像、視頻、購(gòu)物等等。這是我們認(rèn)為云中的智能關(guān)鍵,也就是網(wǎng)上大量非結(jié)構(gòu)化的信息,有條理的統(tǒng)一的處理,這就是智能計(jì)算。
我們希望通過(guò)“云”中的智能計(jì)算,我們迎來(lái)的互聯(lián)網(wǎng)首先是有效的,現(xiàn)在的互聯(lián)網(wǎng)你以為他給你帶來(lái)很多很好的好處,確實(shí)是可以上網(wǎng),但是真正關(guān)鍵的東西查了嗎?百度、谷歌做了權(quán)威性的調(diào)查,實(shí)際上百度、谷歌的搜索引擎只能滿足人們對(duì)信息需求的20%,有80%并沒(méi)有滿足。但是怎么讓那80%呈現(xiàn)在用戶面前,首先通過(guò)智能計(jì)算是有效的。二是安全的。三是可操作的。四是可靠的。五是一致的。六是可擴(kuò)展的。中間這個(gè)球就是互聯(lián)網(wǎng),也就是凱文講的。未來(lái)的互聯(lián)網(wǎng)通讓它擁有語(yǔ)義網(wǎng)絡(luò)的服務(wù),最終無(wú)時(shí)不在,無(wú)所不包,而且是24小時(shí)不間斷運(yùn)作。最后實(shí)現(xiàn)大家夢(mèng)寐以求的夢(mèng)想。謝謝大家。