使用神經(jīng)網(wǎng)絡(luò)來預(yù)測來自贊助搜索的點擊
如今,互聯(lián)網(wǎng)廣告行業(yè)受到了巨大的沖擊,并且其在全球經(jīng)濟中的重要性有望在未來幾十年內(nèi)增長。同時,市場上擠滿了競爭者,他們都在努力最大化(或優(yōu)化)其運營中所有可能的與利潤相關(guān)的方面。其中最重要的方面可能是如何“說服”互聯(lián)網(wǎng)用戶更頻繁地點擊顯示的廣告(嗯,至少在使用按點擊數(shù)付費的收入模式時)。
實際上,一些科學(xué)在這里可能會非常有幫助。例如,為了使搜索引擎的收入最大化,一項非常關(guān)鍵的任務(wù)是提前估算所謂的點擊率或點擊率。在最佳情況下,應(yīng)該為每個廣告估算此參數(shù)。對于簡單的網(wǎng)站來說,這不是一個問題,僅當(dāng)廣告數(shù)量限制為幾十個但不超過幾十個時:您可以手動放置廣告并觀察相關(guān)的點擊次數(shù),然后選擇最合適的廣告。但是,在搜索引擎中,如果沒有至少某種程度的自動化,基本上是無法完成的。接下來是棘手的部分:如何針對特定廣告的收入效率做出不受人監(jiān)督的決定?
為了解決這個問題,最近在arXiv.org上在線發(fā)表的論文的作者說,可以使用基于人工神經(jīng)網(wǎng)絡(luò)的算法來預(yù)測CTR 。在這里,他們提出了一個兩階段的點擊預(yù)測系統(tǒng),該系統(tǒng)將人工神經(jīng)網(wǎng)絡(luò)方法與俄羅斯搜索引擎Yandex當(dāng)前使用的現(xiàn)有決策樹框架相結(jié)合。
作者認(rèn)為,這是一個相對較新的研究領(lǐng)域,因為大多數(shù)現(xiàn)代搜索引擎都使用基于機器學(xué)習(xí)的方法來完成相同的任務(wù),包括邏輯回歸方法和增強型決策樹。但是,與先前提到的技術(shù)相比,人工神經(jīng)網(wǎng)絡(luò)(ANN)在其他科學(xué)領(lǐng)域的應(yīng)用顯示出非常有希望的結(jié)果。該團隊認(rèn)為,人工神經(jīng)網(wǎng)絡(luò)通常具有更大的建模強度,能夠“捕獲”輸入?yún)?shù)之間的非線性關(guān)系,并且還消除了當(dāng)前使用的算法所特有的一些缺點。
為了構(gòu)建預(yù)測系統(tǒng),科學(xué)家選擇使用前饋類型的神經(jīng)網(wǎng)絡(luò)。由于贊助搜索通常使用直接在搜索頁面上顯示的小型文字廣告,因此CTR預(yù)測的任務(wù)乍一看似乎并不那么復(fù)雜。但是,實際上有很多參數(shù)在起作用,這使得難以估計單獨數(shù)據(jù)輸入之間的確切關(guān)系。用于構(gòu)建預(yù)測系統(tǒng)的一些特定模型參數(shù)是:用戶ID,關(guān)鍵字,搜索查詢和廣告ID參數(shù),包括廣告標(biāo)題,單詞內(nèi)容,位置等。
Yandex搜索引擎的點擊日志被用作數(shù)據(jù)集,其中包含約660萬個用于訓(xùn)練,驗證和測試ANN的示例。作者指出,將所有可用數(shù)據(jù)直接輸入到神經(jīng)網(wǎng)絡(luò)是不可行的。由于這個原因,數(shù)據(jù)維數(shù) 是通過從初始輸入?yún)?shù)不頻繁的特征,并通過使用散列函數(shù),以進(jìn)一步減少數(shù)據(jù)維數(shù)降低。
對開發(fā)的點擊預(yù)測系統(tǒng)的測試表明,用ANN代替線性回歸可以大大提高預(yù)測性能。使用稱為精確度/召回曲線(PRC)的統(tǒng)計量度(根據(jù)PRC曲線下的面積計算)來測量CTR預(yù)測的相關(guān)性?;谌斯ど窠?jīng)網(wǎng)絡(luò)的實施使預(yù)測相關(guān)性提高了5.57%。通過使用6個人工神經(jīng)網(wǎng)絡(luò)的集成(6.72%)可以進(jìn)一步改善此結(jié)果。
作者說,基于人工神經(jīng)網(wǎng)絡(luò)的CTR預(yù)測系統(tǒng)的初步開發(fā)顯示出非常有希望的結(jié)果,因此未來的研究可以通過使用實時數(shù)據(jù)測試其開發(fā)來完成。這樣的測試可以觀察到確切的性能影響。還需要其他工作來提高使用更大數(shù)據(jù)集和更大數(shù)量輸入?yún)?shù)的ANN系統(tǒng)的性能
標(biāo)簽: 神經(jīng)網(wǎng)絡(luò)