什么是內(nèi)容興趣偏好標(biāo)簽?zāi)?
簡單來說就是分析用戶喜歡看的文章類型,得到用戶的興趣偏好,在這樣的基礎(chǔ)上,對用戶進(jìn)行內(nèi)容的個性化推薦和push推送,來有效促進(jìn)app的活躍并拉長用戶生命周期。
這件事情簡單來說其實就是兩步走:
首先對文章進(jìn)行分類,也就是俗稱的貼標(biāo)文章。
二是,給用戶打標(biāo)簽,也就是一個用戶閱讀了哪些不同類型的文章,相應(yīng)的就會獲取到學(xué)生自己的興趣選擇偏好進(jìn)行標(biāo)簽。
那么,在實踐中真的這么簡單嗎?看似簡單的兩個鏈接究竟是如何工作的?
通常,有三種方法可以獲取示例:
首先,文章的人工標(biāo)注,優(yōu)點是準(zhǔn)確,缺點是效率低,因為算法需要大量樣本,成本非常高。
另一種方法是通過一些開源網(wǎng)站提供模型訓(xùn)練的關(guān)鍵詞,如可以從搜狗詞典中獲得,優(yōu)點是成本低,但缺點也很明顯,因為不同的分類系統(tǒng)對部分分類有不同的理解,分類不夠準(zhǔn)確,后期需要大量的人力來修正。
第三種方式是配合一些信息類的app,獲取他們的文章和分類作為樣本。比如好的比如今天的頭條,uc都是不錯的選擇。我們當(dāng)時其實也試過(一顆苦澀的淚)。
獲取樣本以后,就是算法模型的訓(xùn)練及其檢驗了。算法模型的訓(xùn)練原理,即通過對樣本文章進(jìn)行分詞,抽取實體,建立特征工程,將每一個特征詞作為向量,擬合出一個函數(shù),這樣,當(dāng)有新的文章時,該文章通過分詞,并通過模型計算出結(jié)果。但模型并不是能夠有樣本一次性就能準(zhǔn)確的,模型還需要進(jìn)行測試和矯正。