就可以在一個(gè)更大的人群范圍里分析
在算法上稱為有監(jiān)督的學(xué)習(xí),一般常用的是回歸算法,以及在回歸算法基礎(chǔ)上衍生出的分類算法。例如,如果把已經(jīng)看過某廣告的人中點(diǎn)擊人群作為采樣數(shù)據(jù),那基于這些數(shù)據(jù),就可以在一個(gè)更大的人群范圍里分析,根據(jù)他們和已知人群特征的相似性判斷他們點(diǎn)擊該廣告的可能性,這就是邏輯回歸。圖2-4-3 算法再舉一個(gè)有意思的例子:如何猜測(cè)一個(gè)人的性別呢?大多數(shù)網(wǎng)站其實(shí)并沒有可靠的人口屬性數(shù)據(jù)源,但他們會(huì)掌握采樣數(shù)據(jù)。如果有1000人的訪問量,其中300個(gè)是男的,700個(gè)是女的,在這種情況下,想知道另外100萬用戶的男女人數(shù)。就可以先研究這1000人中男女用戶在網(wǎng)站上瀏覽的行為模式,了解其中的差異性,將這差異性應(yīng)用到100萬的用戶上,就可以大致推測(cè)那100萬個(gè)用戶中每個(gè)用戶是男性或女性的概率。這也是一個(gè)典型的分類問題。(2)聚類算法。聚類是另一種思路的算法。例如,我們有100萬篇文章,但我們并不知道每篇文章應(yīng)該被分到哪個(gè)類別中,甚至我們不知道該把文章分成多少類,這時(shí)候就需要采用無監(jiān)督學(xué)習(xí)的方式來進(jìn)行,我們稱之為聚類。對(duì)于文章,我們可以用算法提取它們的主題關(guān)鍵詞,再根據(jù)關(guān)鍵詞的相關(guān)性和重合性,把特征近似的文章歸到同一類別下,形成文章類簇。更進(jìn)一步,根據(jù)用戶對(duì)不同類別文章的瀏覽歷史,我們還可以進(jìn)一步對(duì)用戶的行為進(jìn)行聚類,由此形成用戶的聚類標(biāo)簽。用戶聚類可以用于效果類廣告的優(yōu)化。這些算法是如何互相組合和相互作用的呢?廣告平臺(tái)如何調(diào)優(yōu)這些算法進(jìn)行協(xié)同作業(yè)?這里主要用到以下三大策略(見圖2-4-4)。圖2-4-4 算法策略(1)機(jī)器算法優(yōu)劣評(píng)估的KPI。這是最基本的,所有的機(jī)器算法都會(huì)定義明確的KPI公式,就是說所有的機(jī)器學(xué)習(xí)的目標(biāo)都在優(yōu)化這個(gè)公式最后算出來的KPI,把它最大化或者最小化,這個(gè)是最核心的。如點(diǎn)擊模型,我們就可以看它點(diǎn)擊預(yù)測(cè)的誤差總和,那所有對(duì)參數(shù)的優(yōu)化,都是為了去降低這個(gè)誤差總和。(2)組合策略。有時(shí)同一件事,我們可以用幾個(gè)算法同時(shí)去進(jìn)行模擬或預(yù)測(cè)??赡茉诓煌募?xì)分場(chǎng)景下不同算法的效力是不一樣的,那我們就可以用類似投票的策略,來提高算法預(yù)測(cè)總體的準(zhǔn)確性。假設(shè)我們同時(shí)運(yùn)行了10個(gè)性別判定的算法,6個(gè)顯示用戶是男性,4個(gè)顯示是女性,那我們就可以把他作為男性來對(duì)待,即使未必全準(zhǔn),但也會(huì)穩(wěn)妥很多。(3)A/B test(A/B測(cè)試)。系統(tǒng)同時(shí)跑A算法和B算法,最后再用已經(jīng)掌握的那部分?jǐn)?shù)據(jù)去判別A系統(tǒng)和B系統(tǒng)的優(yōu)劣與有效性。這種方法在互聯(lián)網(wǎng)界已經(jīng)非常普遍了,并不僅限于算法的評(píng)估,很多策略,甚至是界面的設(shè)計(jì),都會(huì)用A/B測(cè)試的方式來決定取舍。廣告行業(yè)大數(shù)據(jù)運(yùn)用的未來廣告投放效果除了受數(shù)據(jù)算法的影響,還會(huì)受哪些因素影響?創(chuàng)意本身、廣告投放時(shí)間、廣告投放位置都會(huì)影響效果。因?yàn)橐恍┬Ч惖膹V告主,他們?cè)敢庠趶V告系統(tǒng)里做很多調(diào)整,這就是所謂的運(yùn)營(yíng)優(yōu)化。其實(shí)我還是相信,有些做法可能會(huì)使效果提升,但也有可能在降低系統(tǒng)幫你優(yōu)選的效率,其實(shí)未必是最優(yōu)的。從機(jī)器的角度來說,人做得越多,機(jī)器可以幫你優(yōu)化的空間越小。但目前行業(yè)里很多的同仁仍然堅(jiān)持人工干預(yù)加機(jī)器推薦的方式來執(zhí)行。未來大數(shù)據(jù)運(yùn)用與廣告行業(yè)的理想狀態(tài)應(yīng)該是怎么樣?理想狀態(tài)應(yīng)該是數(shù)據(jù)流轉(zhuǎn)比較充分,大家能夠以一種合理合法的方式對(duì)數(shù)據(jù)進(jìn)行充分地開發(fā)和利用,廣告效果越做越好,投放人群越來越精準(zhǔn)。廣告其實(shí)和互聯(lián)網(wǎng)的其他行業(yè)一樣,未來的趨勢(shì)是用機(jī)器盡可能地取代人力做一些更智能化的事情。數(shù)據(jù)合作最主要的邊界還是需要在行業(yè)里面建立一些信任關(guān)系,例如有些公司幫你存數(shù)據(jù),存了幾年以后他開始自己做數(shù)據(jù)生意,那這種信任關(guān)系其實(shí)就完全被打破了。如果大家都這樣,誰都不把數(shù)據(jù)拿出來,很多人說中國(guó)的互聯(lián)網(wǎng)更像是幾大數(shù)據(jù)孤島,就因?yàn)槿狈π湃?,你的?shù)據(jù)沒法流轉(zhuǎn),很難使數(shù)據(jù)發(fā)揮更大的效應(yīng)。搜狐現(xiàn)在其實(shí)在數(shù)據(jù)上非常開放,我們不是嚴(yán)格地只進(jìn)不出,我們更多的是大家一起合作,如何利用好數(shù)據(jù)。很多公司現(xiàn)在都在做所謂的數(shù)據(jù)求大求全,其實(shí)我覺得也不一定,如果你有一塊比較獨(dú)特的,別人沒有的或者不那么容易拿到的數(shù)據(jù),并且這塊數(shù)據(jù)真的能夠?qū)I(yíng)銷的過程產(chǎn)生價(jià)值,其實(shí)就已經(jīng)是一個(gè)很好的合作開端了。流量作弊解讀想請(qǐng)教一個(gè)敏感的問題關(guān)于流量作弊,現(xiàn)在程序化廣告行業(yè)流量作弊的現(xiàn)狀是怎樣的?程序化廣告中的流量作弊現(xiàn)狀較嚴(yán)重,甚至我們搜狐投放廣告的時(shí)候,也碰到類似的問題。但我還是傾向于用比較善意的眼光去看待這個(gè)事情,并不是說誰都想去作弊?,F(xiàn)在主要的挑戰(zhàn)是:我們?cè)趺礃佑酶玫臋C(jī)制去鑒別出這部分所謂的異常流量/非人流量,并且能夠在各環(huán)節(jié)的能力范圍內(nèi)盡可能地去把好各自的那一關(guān)?,F(xiàn)在已知的一些作弊手段,如刷量、偽造IP、上報(bào)攔截、瀏覽器模擬等,有些我們?cè)谌罩纠锞湍芸吹揭恍┒四撸参幢囟际欠侨肆髁?。如同一個(gè)IP一天1000次訪問,是不是就能判斷為流量作弊?如果這個(gè)IP是一個(gè)人的話確實(shí)存在流量作弊的嫌疑,但你要知道中國(guó)還有那么多代理服務(wù)器、小區(qū)寬帶、共享帶寬,這都




