這是一個(gè)信息爆炸的時(shí)代,因而信息過(guò)濾和基于大數據的個(gè)性化推送,便成了至關(guān)重要的事情。而這,也正是今日頭條可以從眾多新聞客戶(hù)端中脫穎而出的重要原因。
2012年8月,今日頭條上線(xiàn),以其獨有的大數據分析和定制化推薦而迅速受到熱捧。從資訊客戶(hù)端變?yōu)閿祿诰虻耐扑]引擎,創(chuàng )業(yè)不足三年,這家公司的估值已經(jīng)達到5億美元,而這些都是今日頭條背后所蘊藏的大數據算法的價(jià)值。
如何推測你的喜好?好算法不如大數據
當你身在外地旅游時(shí),打開(kāi)今日頭條,你會(huì )突然發(fā)現,它為你推送的消息里,多了幾條當地的旅游攻略。當你晚上失眠睡不著(zhù)時(shí),打開(kāi)APP最先看到的,多是情感相關(guān)的內容。這些都是今日頭條用戶(hù)使用的場(chǎng)景之一,你也許會(huì )好奇,它是如何做到更懂你的呢?今日頭條的負責算法數據的技術(shù)副總裁楊震原給了我們答案。
“個(gè)性化推薦算法就是基于投票的方法,”楊震原說(shuō)到,今日頭條個(gè)性化推薦的核心理念其實(shí)就是投票。“實(shí)際上個(gè)性化推薦并不是機器給你推薦,而是人與人之間在互相推薦。”
他將個(gè)性化算法比作是數豆子的方法,每一個(gè)人拿一個(gè)豆子,喜歡哪一篇文章就把豆子給這篇文章,然后由機器去數,最后得到結果。依照這種算法,同樣兩篇文章,當前三個(gè)人都對第一篇文章做出“投票”時(shí),那么,給第四個(gè)人推送的必然就是第一篇文章了。
此外,人群可以基于年齡、性別、地域、職業(yè)等分類(lèi),而文章也可以通過(guò)關(guān)鍵詞、發(fā)布時(shí)間、所屬地區等分類(lèi),再結合用戶(hù)反饋的數據,才有了“你關(guān)心的,才是頭條”。楊震原表示,今日頭條推薦的方法也是機器學(xué)習的算法,在移動(dòng)互聯(lián)網(wǎng)時(shí)代有很多豆子產(chǎn)生,當你拿著(zhù)手機每看一篇文章,你的每一次點(diǎn)擊和搜索,各種行為,都會(huì )被記錄下來(lái)產(chǎn)生數據。
如楊震原所說(shuō):
“More data beats better algorithms,大數據勝過(guò)好算法,大數據時(shí)代的到來(lái)才真正釋放了這些算法的價(jià)值和意義。”
今日頭條的下一個(gè)五年,機器才能抹平信息鴻溝
創(chuàng )業(yè)三年以來(lái),張一鳴的團隊,積累了2.2億用戶(hù)的使用習慣和數據。這些數據要怎么才能更好玩呢?于是,他們搞了一場(chǎng)有關(guān)“算數”的發(fā)布會(huì ),第一次通過(guò)數據,向外界展示了今日頭條的用戶(hù)是怎樣的一群人。
根據他們發(fā)布的數據報告顯示,男性用戶(hù)占到了65%的比例,而雖然女性用戶(hù)較少,但是她們的平均停留時(shí)長(cháng)在8分鐘,明顯高于男性的5.5分鐘。
“廣西的人最?lèi)?ài)點(diǎn)贊,河北人最?lèi)?ài)看段子,最關(guān)心時(shí)政的是山西人,最關(guān)注八卦的是天津。”
這都是今日頭條根據用戶(hù)習慣得出的數據。張一鳴解釋說(shuō),
“過(guò)去是依靠人總結知識,現在可以通過(guò)系統、學(xué)習用戶(hù)的行為特征來(lái)儲存智慧。有很多人問(wèn)我,未來(lái)5年今日頭條會(huì )變成什么樣?其實(shí)大家看我研究的APP,大概能知道我在關(guān)注什么。”
張一鳴邊說(shuō)邊把自己手機里400多個(gè)APP展示給大家看。他自己總結了三個(gè)努力的方向:
一是讓更多種類(lèi)信息,包括文字、圖片、短視頻如何在更多場(chǎng)景下給用戶(hù)更好的推薦。其次是能不能把握用戶(hù)越來(lái)越多的習慣和數據,使基于相同興趣的用戶(hù)更好的進(jìn)行交流和互動(dòng)。第三是希望能夠連接更多O2O的服務(wù),讓今日頭條變?yōu)?ldquo;今日生活”。
那么在今日頭條背后做數據支持的算法和大數據呢?
張一鳴認為,在下一個(gè)五年中,將有越來(lái)越多人的興趣、行為被投影到網(wǎng)絡(luò )世界,當數據越來(lái)越多,機器就會(huì )越來(lái)越懂我們。在張一鳴看來(lái),大數據就網(wǎng)絡(luò )空間的“上帝”,在俯視觀(guān)察著(zhù)所有人。
“雖然機器的智商未必高于見(jiàn)多識廣的人,但人的記憶量有限,處理的數據量也有限。機器卻可以不知疲倦,每時(shí)每刻都可以輸入海量數據。通過(guò)感知理解判斷之后形成機器的智慧,能夠大規模的抹平信息的鴻溝。”
上線(xiàn)不足三年,2.2億用戶(hù),2000萬(wàn)日活。對于團隊所取得的成績(jì),張一鳴并沒(méi)有太過(guò)沾沾自喜,畢竟今日頭條算法推送的背后還有著(zhù)太多需要改進(jìn)和優(yōu)化的地方,產(chǎn)品也仍在遭到用戶(hù)不斷的吐槽。更重要的是,1月19日,搜狗剛剛推出了“微信頭條”,競爭對手,正在緊隨其后。
最后,附數據圖兩張,小伙伴們請自行對號入座哦~