岳丰满多毛的大隂户_国产精品爱久久久久久久_午夜理论片YY44880影院_国产一区二区三区影院_欧美人与动人物牲交免费观看久久_护士被强奷系列视频_国产高清露脸孕妇系列_最新国产成人AB网站_性欧美乱妇高清COME_

【滁州seo】今日頭條seo算法原理原來是這樣的。

當(dāng)前位置: 首頁 > 常見問題

【滁州seo】今日頭條seo算法原理原來是這樣的。

如今,算法分發(fā)已經(jīng)成為幾乎所有軟件的標(biāo)準(zhǔn),比如信息平臺、搜索引擎、瀏覽器、社交軟件等。,但與此同時(shí),算法也開始面臨質(zhì)疑、挑戰(zhàn)和誤解。今日頭條的推薦算法自第一版開發(fā)并于年運(yùn)行以來,經(jīng)歷了四次大的調(diào)整和修改。

今日頭條委托資深算法架構(gòu)師曹歡歡博士公開今日頭條的算法原理,以期在全行業(yè)推廣咨詢算法和建議算法;通過讓算法透明化,可以消除社會各界對算法的誤解,逐步推動(dòng)整個(gè)行業(yè)讓算法更好的造福社會。

以下是今日頭條算法原理全文。

今日頭條資深算法架構(gòu)師曹歡歡:

本次分享將主要介紹今日頭條推薦系統(tǒng)的概況以及內(nèi)容分析、用戶標(biāo)注、評價(jià)分析、內(nèi)容安全的原理。

一.系統(tǒng)概述

推薦系統(tǒng),如果用一種形式化的方式來描述,實(shí)際上是一種符合用戶對內(nèi)容滿意度的功能。這個(gè)函數(shù)需要輸入三維變量。第一個(gè)維度是內(nèi)容。頭條現(xiàn)在是一個(gè)綜合性的內(nèi)容平臺,包括圖文、視頻、UGC視頻、問答、微頭條。每個(gè)內(nèi)容都有自己的特點(diǎn),需要考慮如何提取不同內(nèi)容類型的特點(diǎn)并進(jìn)行推薦。第二個(gè)維度是用戶特征。包括各種興趣標(biāo)簽,職業(yè),年齡,性別等。,以及許多模型得出的隱含用戶興趣。第三個(gè)維度是環(huán)境特征。這是移動(dòng)互聯(lián)網(wǎng)時(shí)代值得推薦的功能。用戶隨時(shí)隨地移動(dòng),在職場、通勤、出行等不同場景下,其信息偏好也隨之轉(zhuǎn)移。結(jié)合三個(gè)維度,模型會給出一個(gè)估計(jì),即推測推薦內(nèi)容是否適合這個(gè)場景下的這個(gè)用戶。

還有一個(gè)問題。如何引入無法直接衡量的目標(biāo)?

在推薦模型中,點(diǎn)擊率、閱讀時(shí)間、喜歡、評論、轉(zhuǎn)發(fā),包括喜歡,都是可以量化的指標(biāo),可以通過模型的直接擬合來估算??淳W(wǎng)上的推廣就知道自己做的好不好了。而一個(gè)海量的推薦系統(tǒng),服務(wù)的用戶量很大,不能完全用指標(biāo)來評價(jià),引入數(shù)據(jù)指標(biāo)以外的因素也很重要。

例如廣告和特殊內(nèi)容頻率控制。例如,問答卡就是一種特殊形式的內(nèi)容。推薦的目標(biāo)不僅僅是讓用戶瀏覽,還要吸引用戶回答,為社區(qū)做貢獻(xiàn)。如何將這些內(nèi)容與普通內(nèi)容混合,如何控制頻率控制都需要考慮。

此外,出于內(nèi)容生態(tài)和社會責(zé)任的考慮,如低俗內(nèi)容的抑制、標(biāo)題黨和低質(zhì)內(nèi)容的抑制、重要新聞的置頂、加權(quán)和強(qiáng)制、低級賬號內(nèi)容的降級等,都不是算法本身能夠完成的,需要進(jìn)一步介入內(nèi)容。

下面,我就簡單介紹一下基于以上目標(biāo)的算法如何實(shí)現(xiàn)。

前面提到的公式y(tǒng)=F(,Xu,Xc)是一個(gè)經(jīng)典的監(jiān)督學(xué)習(xí)問題。可以實(shí)現(xiàn)的方法有很多,如傳統(tǒng)的協(xié)同過濾模型、監(jiān)督學(xué)習(xí)算法LogisticRegression模型、基于深度學(xué)習(xí)的模型、因子分解機(jī)和GBDT等。

一個(gè)優(yōu)秀的工業(yè)推薦系統(tǒng)需要一個(gè)非常靈活的算法實(shí)驗(yàn)平臺,可以支持多種算法組合,包括模型結(jié)構(gòu)調(diào)整。因?yàn)楹茈y為所有推薦的場景建立一個(gè)通用的模型架構(gòu)。現(xiàn)在很流行把LR和DNN結(jié)合起來。幾年前,臉書還結(jié)合了LR和GBDT算法。今天頭條的幾款產(chǎn)品都在使用同樣強(qiáng)大的算法推薦系統(tǒng),只是模型架構(gòu)會根據(jù)不同的業(yè)務(wù)場景進(jìn)行調(diào)整。

之后再看典型的推薦特征。有四種主要類型的特征將在推薦中發(fā)揮重要作用。

第一類是相關(guān)性特征,就是評價(jià)內(nèi)容的屬性,是否與用戶匹配。顯式匹配包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等。FM模型中也有一些隱式匹配,可以從用戶向量和內(nèi)容向量之間的距離得到。

第二類是環(huán)境特征,包括地理位置和時(shí)間。這些特征都是偏置特征,可以用來構(gòu)造一些匹配特征。

第三類是熱特性。包括全球熱度、分類熱度、話題熱度、關(guān)鍵詞熱度等。內(nèi)容信息在大型推薦系統(tǒng)中非常有效,尤其是在用戶冷啟動(dòng)的時(shí)候。

第四類是協(xié)同特征,可以在一定程度上幫助解決算法縮小的問題。協(xié)作功能不考慮用戶的現(xiàn)有歷史。而是通過用戶行為來分析不同用戶之間的相似度,比如點(diǎn)擊相似度、興趣分類相似度、話題相似度、興趣詞相似度,甚至向量相似度,從而擴(kuò)展模型的探索能力。

在模型的訓(xùn)練上,頭條的推薦產(chǎn)品大多采用實(shí)時(shí)訓(xùn)練。實(shí)時(shí)培訓(xùn)節(jié)省資源,快速反饋,這對于信息流產(chǎn)品來說非常重要。所需的用戶行為信息可以被模型快速捕捉并反饋到下一次刷的推薦效果中。目前我們基于暴風(fēng)集群在線實(shí)時(shí)處理樣本數(shù)據(jù),包括點(diǎn)擊、展示、收藏、分享等動(dòng)作類型。參數(shù)服務(wù)器是內(nèi)部開發(fā)的一套高性能系統(tǒng),因?yàn)轭^條數(shù)據(jù)規(guī)模增長太快,同類開源系統(tǒng)的穩(wěn)定性和性能無法滿足。但是我們自研系統(tǒng)的底層做了很多有針對性的優(yōu)化,提供了完善的運(yùn)維工具,更好的適應(yīng)現(xiàn)有的業(yè)務(wù)場景。

目前頭條推薦算法模型在國際上也是比較大的,包括幾百億的原創(chuàng)特征和幾十億的向量特征。整個(gè)訓(xùn)練過程是在線服務(wù)器記錄實(shí)時(shí)特征,導(dǎo)入到Kafka文件隊(duì)列中,再進(jìn)一步導(dǎo)入暴風(fēng)集群消耗的Kafka數(shù)據(jù)。客戶端發(fā)回推薦標(biāo)簽構(gòu)造訓(xùn)練樣本,然后進(jìn)行在線訓(xùn)練,根據(jù)更新的樣本更新模型參數(shù),從而更新最終的在線模型。這個(gè)過程中最主要的延遲是用戶的動(dòng)作反饋延遲,因?yàn)橛脩艨赡懿粫谖恼卤煌扑]后立即閱讀,整個(gè)系統(tǒng)不管這個(gè)時(shí)間都幾乎是實(shí)時(shí)的。

但由于目前頭條的內(nèi)容量非常大,小視頻內(nèi)容有幾千萬條,推薦系統(tǒng)不可能通過模型預(yù)測所有內(nèi)容。所以需要設(shè)計(jì)一些召回策略,每次推薦都要從海量內(nèi)容中篩選出上千個(gè)內(nèi)容庫。召回策略更重要的要求是表現(xiàn)要極致。通常,超時(shí)不應(yīng)超過毫秒。

回憶策略有很多種,我們主要用逆向的思路。離線維護(hù)反向隊(duì)列。這個(gè)倒排隊(duì)列的關(guān)鍵字可以是分類、主題、實(shí)體、來源等。排名考慮了熱度、新鮮度、動(dòng)作等。在線召回可以根據(jù)用戶的興趣標(biāo)簽從倒排列表中快速截出內(nèi)容,從龐大的內(nèi)容庫中高效篩選出少量可靠的內(nèi)容。

第二,內(nèi)容分析

分析包括文本分析、圖片分析和視頻分析。起初,標(biāo)題主要是提供信息。今天主要講一下文本分析。文本分析在推薦系統(tǒng)中的一個(gè)非常重要的作用是用戶興趣建模。沒有內(nèi)容和文本標(biāo)簽,就無法獲取用戶的興趣標(biāo)簽。比如你只有知道文章標(biāo)簽是互聯(lián)網(wǎng),用戶閱讀了有互聯(lián)網(wǎng)標(biāo)簽的文章,你才能知道用戶有互聯(lián)網(wǎng)標(biāo)簽,其他關(guān)鍵詞也一樣。

另一方面,文本內(nèi)容的標(biāo)簽可以直接幫助推薦功能。比如魅族內(nèi)容可以推薦給關(guān)注魅族的用戶,這就是用戶標(biāo)簽的匹配。如果某段時(shí)間推薦主頻道的效果不盡如人意,縮小推薦范圍,用戶在具體頻道推薦(如科技、體育、娛樂、軍事等)閱讀后會發(fā)現(xiàn),),他們會回到主feed,推薦效果會更好。因?yàn)檎麄€(gè)模式是開放的,子渠道探索空間小,更容易滿足用戶需求。僅僅通過單一渠道反饋會很難提高推薦準(zhǔn)確率,做好分渠道非常重要。而這也需要很好的內(nèi)容分析。

上圖是今日頭條的一個(gè)實(shí)際文本案例。可以看到,這篇文章有分類、關(guān)鍵詞、主題、實(shí)體詞等文本特征。當(dāng)然,沒有文本特征,推薦系統(tǒng)是不行的。推薦系統(tǒng)在亞馬遜用的比較早,甚至在沃爾瑪時(shí)代就有了,包括Netfilx做視頻推薦,沒有文字功能直接協(xié)同過濾推薦。而對于資訊產(chǎn)品來說,大部分都是消耗當(dāng)天的內(nèi)容,沒有文字特征的新內(nèi)容冷啟動(dòng)是非常困難的。協(xié)作功能解決不了文章冷啟動(dòng)的問題。

今日頭條推薦系統(tǒng)提取的主要文本特征包括以下幾類。首先是語義標(biāo)簽功能,對文章進(jìn)行明確的標(biāo)簽。這部分標(biāo)簽是人定義的,每個(gè)標(biāo)簽都有明確的含義,標(biāo)簽系統(tǒng)是預(yù)定義的。另外還有隱含語義特征,主要是話題特征和關(guān)鍵詞特征,其中話題特征描述的是詞的概率分布,沒有明確的含義;但是關(guān)鍵字特征會基于一些統(tǒng)一的特征描述,沒有明確的設(shè)定。

此外,文本相似度特征也很重要。在頭條里,用戶曾經(jīng)反饋很大的一個(gè)問題就是為什么總是推薦重復(fù)的內(nèi)容。這個(gè)問題的難點(diǎn)在于每個(gè)人對重復(fù)的定義不同。比如有人覺得這篇關(guān)于皇馬和巴薩的文章昨天看過類似的內(nèi)容,今天又說這兩支球隊(duì)是復(fù)制體。但是對于一個(gè)重度球迷,尤其是巴薩球迷來說,我迫不及待的想看到所有的報(bào)道。要解決這個(gè)問題,需要判斷同類文章的主題、風(fēng)格、主體,并根據(jù)這些特點(diǎn)制定上網(wǎng)策略。

同樣,還有時(shí)空特征,分析內(nèi)容的位置和時(shí)間性。比如把武漢的限行推給北京用戶,可能就沒什么意義了。之后要考慮質(zhì)量相關(guān)的特征來判斷內(nèi)容是否低俗、色情、軟文、雞湯。

上圖是頭條語義標(biāo)簽的特點(diǎn)和使用場景。他們的層次不同,要求也不同。

分類的目標(biāo)是全面覆蓋,希望每一個(gè)內(nèi)容、每一個(gè)視頻都分類;實(shí)體系統(tǒng)要求精確,相同的名稱或內(nèi)容要能清楚地區(qū)分所指的是哪個(gè)人或事,但不一定要完全覆蓋。概念系統(tǒng)負(fù)責(zé)解決更精確和抽象概念的語義。這是我們之前的分類。在實(shí)踐中,我們發(fā)現(xiàn)分類和概念在技術(shù)上可以互操作。后來我們統(tǒng)一了一套技術(shù)框架。

目前隱含的語義特征已經(jīng)可以幫助推薦,而語義標(biāo)簽需要不斷標(biāo)注,新的術(shù)語和概念不斷出現(xiàn),標(biāo)注需要不斷迭代。它的難度和資源投入遠(yuǎn)大于隱含語義特征,那為什么還要語義標(biāo)簽?zāi)??有一些產(chǎn)品需求,比如明確定義的分類內(nèi)容,頻道的通俗易懂的文字標(biāo)簽系統(tǒng)。語義標(biāo)簽的效果是檢驗(yàn)一個(gè)公司NLP技術(shù)水平的試金石。

今日頭條推薦系統(tǒng)的在線分類采用典型的層次文本分類算法。在根的上面,下面的第一級被分類成像科技、體育、金融、娛樂、體育這樣的類別,然后再下面,足球、籃球、乒乓球、網(wǎng)球、田徑、游泳& #;,足球細(xì)分為國際足球和中國足球,中國足球細(xì)分為中甲、中超和國家隊(duì)& #;與單一分類器相比,層次文本分類算法能更好地解決數(shù)據(jù)傾斜問題。也有一些例外。如果想提高召回,可以看看我們接了一些飛線。這套架構(gòu)是通用的,但是根據(jù)不同問題的難度,每個(gè)元分類器可以是異構(gòu)的。例如,一些分類支持向量機(jī)是有效的,一些應(yīng)該結(jié)合CNN,一些應(yīng)該結(jié)合RNN進(jìn)行進(jìn)一步處理。

上圖是一個(gè)實(shí)體詞識別算法的案例。根據(jù)分詞結(jié)果和詞性標(biāo)注選擇候選詞可能需要根據(jù)知識庫進(jìn)行一些拼接。有些實(shí)體是幾個(gè)詞的組合,需要確定哪些詞可以將實(shí)體的描述映射在一起。如果結(jié)果映射了多個(gè)實(shí)體,就需要通過詞向量、話題分布甚至詞頻本身進(jìn)行消歧,然后計(jì)算出一個(gè)關(guān)聯(lián)模型。

第三,用戶標(biāo)簽

內(nèi)容分析和用戶標(biāo)簽是推薦系統(tǒng)的兩大基石。內(nèi)容分析涉及機(jī)器學(xué)習(xí)的內(nèi)容更多,相比用戶標(biāo)簽工程,更具挑戰(zhàn)性。

今日頭條常用的用戶標(biāo)簽包括用戶感興趣的類別和話題、關(guān)鍵詞、來源、基于興趣的用戶聚類、各種垂直興趣特征(車型、運(yùn)動(dòng)隊(duì)、股票等。).還有性別、年齡、地點(diǎn)等信息。性別信息通過登錄用戶的第三方社交賬號獲取。年齡信息通常由模型預(yù)測,通過模型、閱讀時(shí)間分布等進(jìn)行估計(jì)。駐留位置來自用戶授權(quán)的位置信息,駐留位置是在位置信息的基礎(chǔ)上通過傳統(tǒng)的聚類方法得到的。常駐點(diǎn)可以結(jié)合其他信息猜測用戶的工作地點(diǎn)、出差地點(diǎn)、旅游地點(diǎn)。這些用戶標(biāo)簽對推薦很有幫助。

當(dāng)然,更簡單的用戶標(biāo)簽是瀏覽的內(nèi)容標(biāo)簽。但是這里涉及到一些數(shù)據(jù)處理策略。主要包括:1。過濾噪音。點(diǎn)擊停留時(shí)間短的過濾標(biāo)題黨。第二,熱點(diǎn)懲罰。用戶在一些熱門文章上的動(dòng)作(比如前段時(shí)間PGOne的新聞)被降級。理論上,傳播范圍廣的內(nèi)容,可信度會低一些。第三,時(shí)間衰減。用戶的興趣會發(fā)生轉(zhuǎn)移,所以策略更傾向于新的用戶行為。所以隨著用戶動(dòng)作的增加,舊的特征權(quán)重會隨著時(shí)間衰減,新動(dòng)作貢獻(xiàn)的特征權(quán)重會更大。第四,懲罰顯示。如果一篇推薦給用戶的文章沒有被點(diǎn)擊,相關(guān)特征(類別、關(guān)鍵詞、來源)的權(quán)重會受到懲罰。同時(shí)當(dāng)然也要考慮全球背景,是否有更多的相關(guān)內(nèi)容推送,以及相關(guān)的關(guān)閉和不喜歡信號等。

用戶標(biāo)簽挖掘通常很簡單,主要是由于剛才提到的工程挑戰(zhàn)。頭條標(biāo)簽第一版是批量計(jì)算框架,流程比較簡單。每天提取昨天的日常用戶近兩個(gè)月的動(dòng)作數(shù)據(jù),在Hadoop集群上批量計(jì)算結(jié)果。

但問題是,隨著用戶的快速增長,興趣模型等批量處理任務(wù)的類型越來越多,涉及的計(jì)算量太大。2000年,批量處理幾百萬用戶標(biāo)簽更新的Hadoop task,當(dāng)天勉強(qiáng)完成。集群計(jì)算資源的短缺很容易影響其他工作,集中寫入分布式存儲系統(tǒng)的壓力也越來越大,用戶興趣標(biāo)簽的更新延遲也越來越高。

面對這些挑戰(zhàn)。年底,今日頭條上線了用戶標(biāo)簽暴風(fēng)集群流計(jì)算系統(tǒng)。改成流后,只要用戶的動(dòng)作更新,標(biāo)簽就會更新。CPU成本相對較小,可以節(jié)省%的CPU時(shí)間,大大降低計(jì)算資源開銷。同時(shí)只需要幾十臺機(jī)器就可以支持每天幾千萬用戶的興趣模型更新,特征更新速度非??欤究梢宰龅綔?zhǔn)實(shí)時(shí)。該系統(tǒng)自推出以來一直在使用。

當(dāng)然,我們也發(fā)現(xiàn),并不是所有的用戶標(biāo)簽都需要流系統(tǒng)。用戶的性別、年齡、居住地點(diǎn)等信息,無需實(shí)時(shí)重復(fù)計(jì)算,仍會保持每日更新。

四。評估和分析

上面介紹了推薦系統(tǒng)的整體架構(gòu),那么如何評價(jià)推薦效果呢?

有一句話我覺得很明智,“一個(gè)東西如果無法評估,就無法優(yōu)化”。推薦系統(tǒng)也是如此。

其實(shí)很多因素都會影響推薦效果。比如候選集的變化、召回模塊的改進(jìn)或增加、推薦特征的增加、模型架構(gòu)的改進(jìn)、算法參數(shù)的優(yōu)化等。不是例子。評測的意義在于,很多優(yōu)化最后可能會有負(fù)面效果,但并不是說優(yōu)化上線后效果就會有所提升。

一個(gè)全面的評價(jià)和推薦系統(tǒng)需要完整的評價(jià)體系、強(qiáng)大的實(shí)驗(yàn)平臺和易用的實(shí)證分析工具。所謂完整的體系,并不是用單一的指標(biāo)來衡量的。它不能只看點(diǎn)擊率或者停留時(shí)間長短等。需要綜合評價(jià)。在過去的幾年里,我們一直試圖將盡可能多的指標(biāo)合成一個(gè)唯一的評價(jià)指標(biāo),但我們?nèi)栽谔剿髦?。目前還是要經(jīng)過各業(yè)務(wù)高年級學(xué)生組成的評審委員會深入討論后再做決定。

很多公司算法做的不好,不是工程師能力不夠,而是需要強(qiáng)大的實(shí)驗(yàn)平臺和便捷的實(shí)驗(yàn)分析工具,能夠智能分析數(shù)據(jù)指標(biāo)的置信度。

一個(gè)好的評價(jià)體系的建立需要遵循幾個(gè)原則,首先是兼顧短期指標(biāo)和長期指標(biāo)。之前負(fù)責(zé)公司電商方向的時(shí)候,我觀察到很多戰(zhàn)略調(diào)整短期內(nèi)對用戶來說感覺很新鮮,但長期來看并無幫助。

其次,用戶指標(biāo)和生態(tài)指標(biāo)都要考慮。今日頭條作為內(nèi)容創(chuàng)作的平臺,既要為內(nèi)容創(chuàng)作者提供價(jià)值,讓他有尊嚴(yán)地創(chuàng)作,又有義務(wù)讓用戶滿意,兩者要平衡。還有廣告主的利益要考慮,這是一個(gè)多方博弈和平衡的過程。

另外,要注意協(xié)同效應(yīng)的影響。嚴(yán)格的流量隔離在實(shí)驗(yàn)中很難做到,要注意外部效應(yīng)。

強(qiáng)大的實(shí)驗(yàn)平臺非常直接的好處是,當(dāng)同時(shí)有很多在線實(shí)驗(yàn)時(shí),平臺可以自動(dòng)分配流量,無需人工溝通,實(shí)驗(yàn)結(jié)束后可以立即恢復(fù)流量,提高管理效率。這樣可以幫助公司降低分析成本,加快算法的迭代效果,讓整個(gè)系統(tǒng)的算法優(yōu)化快速向前推進(jìn)。

這就是頭條A/BTest實(shí)驗(yàn)系統(tǒng)的基本原理。首先做好線下用戶分桶,然后線上分發(fā)實(shí)驗(yàn)流量,給桶里的用戶貼上標(biāo)簽,分發(fā)到實(shí)驗(yàn)組。比如開一個(gè)%流量的實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)組各%一個(gè),一個(gè)%為基線,策略與線上市場相同,另一個(gè)為新策略。

實(shí)驗(yàn)過程中會收集用戶動(dòng)作,幾乎是實(shí)時(shí)的,每小時(shí)都能看到。但是,因?yàn)槊啃r(shí)的數(shù)據(jù)是波動(dòng)的,所以通常以天為時(shí)間節(jié)點(diǎn)。采集后會有日志處理,分布式統(tǒng)計(jì),寫入數(shù)據(jù)庫,非常方便。

在該系統(tǒng)下,工程師只需設(shè)置流量需求、實(shí)驗(yàn)時(shí)間、定義特殊過濾條件和自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動(dòng)生成:實(shí)驗(yàn)數(shù)據(jù)對比、實(shí)驗(yàn)數(shù)據(jù)置信度、實(shí)驗(yàn)結(jié)論總結(jié)和實(shí)驗(yàn)優(yōu)化建議。

當(dāng)然,只有實(shí)驗(yàn)平臺是不夠的。線上實(shí)驗(yàn)平臺只能通過數(shù)據(jù)指標(biāo)的變化來猜測用戶體驗(yàn)的變化,但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)是有區(qū)別的,很多指標(biāo)無法完全量化。許多改進(jìn)仍然需要人工分析,重大改進(jìn)需要人工評估和重新確認(rèn)。

動(dòng)詞 (verb的縮寫)內(nèi)容安全

后面會介紹今日頭條在內(nèi)容安全上的一些措施。目前,頭條是中國內(nèi)容創(chuàng)作和分發(fā)的大憑證,所以我們必須越來越重視社會責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果%的推薦內(nèi)容出了問題,影響就大了。

因此,從一開始,頭條就將內(nèi)容安全放在公司更高優(yōu)先級的隊(duì)列中。在成立之初,就已經(jīng)成立了專門的審計(jì)小組負(fù)責(zé)內(nèi)容安全。當(dāng)時(shí)只有幾個(gè)學(xué)生,開發(fā)所有的客戶端,后端,算法,頭條很重視內(nèi)容審核。

現(xiàn)在,今日頭條的內(nèi)容主要來自兩個(gè)部分,一個(gè)是擁有成熟內(nèi)容生產(chǎn)能力的PGC平臺。

一類是UGC用戶內(nèi)容,如問答、用戶評論、微頭條等。這兩部分需要通過統(tǒng)一的審核機(jī)制。如果是比較少量的PGC內(nèi)容,會直接進(jìn)行風(fēng)險(xiǎn)審核,沒有問題的話會廣泛推薦。UGC內(nèi)容需要經(jīng)過風(fēng)險(xiǎn)模型的篩選,有問題的會進(jìn)入二次風(fēng)險(xiǎn)審核。審核通過后,內(nèi)容才會真正被推薦。這時(shí)候如果收到超過一定量的評論或者舉報(bào)負(fù)面反饋,就會回到審核環(huán)節(jié),有問題就直接下架。整個(gè)機(jī)制比較健全。作為行業(yè)領(lǐng)導(dǎo)者,今日頭條在內(nèi)容安全方面一直以更高的標(biāo)準(zhǔn)要求自己。

內(nèi)容分享識別技術(shù)主要包括黃色識別模型、辱罵模型和低俗模型。今日頭條的低俗模型是深度學(xué)習(xí)算法訓(xùn)練出來的。樣本基數(shù)很大,圖文同時(shí)分析。這部分模型更注重召回率,甚至可以犧牲準(zhǔn)確率。濫用模型樣本庫也超過百萬,召回率%+準(zhǔn)確率%+。如果用戶經(jīng)常發(fā)表直言不諱或不恰當(dāng)?shù)脑u論,我們有一些懲罰機(jī)制。

泛低質(zhì)鑒定涉及很多情況,比如假新聞、黑稿、題字不符、標(biāo)題黨、內(nèi)容質(zhì)量低等。這部分內(nèi)容很難被機(jī)器理解,需要大量的反饋信息,包括其他樣本信息的對比。目前低質(zhì)量模型的準(zhǔn)確率和召回率都不是特別高,需要結(jié)合人工審核來提高門檻。目前最終召回已經(jīng)達(dá)到%,這部分還有很多工作要做。頭條人工智能實(shí)驗(yàn)室老師李航也在與密歇根大學(xué)合作建立一個(gè)研究項(xiàng)目,建立一個(gè)謠言識別平臺。

作者:徐州百都網(wǎng)絡(luò) | 來源: | 發(fā)布于:2022-04-25 20:22:50