Google台灣官方部落格發布了最新文章:「淺談 YouTube 推薦系統」

當 YouTube 推薦系統發揮理想成效時,能為全球數十億使用者提供合適的內容,讓他們透過獨特的體驗獲得靈感、知識和娛樂。就我而言,這個系統可以協助我找到各種演講影片,以瞭解當今科技所涉及的倫理議題,或是重溫小時候看過的南加大美式足球賽事的精彩片段。對我的大女兒而言,她可以從 Vlogbrothers 影片中找到歡樂及同好。至於我的大兒子,推薦系統讓他能透過 3Blue1Brown 的動畫教學影片充分理解線性代數,而休息時間則可以觀看 KSI 的影片。

從我家人的使用體驗來看,幾乎每一部影片都有各自的觀眾群,而推薦系統的任務就是要找到這群觀眾。我們不妨想像一下,如果沒有圖書館員的協助,要在一座龐大的圖書館中尋找一本書,會有多麼困難。YouTube 大量的觀看次數來自推薦系統,它的成效甚至超越頻道訂閱和搜尋功能。我參與 YouTube 推薦系統的建構工作已有十多年的時間,對於這套系統如今已成為 YouTube 所有使用者體驗中不可或缺的一部分,我感到十分驕傲。但是推薦系統的運作原理往往被視為神秘的黑箱作業。我們希望一般大眾都能夠瞭解這套系統,因此我要為大家說明這套系統的運作方式、演進歷程,以及為何我們將提供理想的推薦內容視為優先要務。

什麼是推薦系統?

▲ 在使用者首頁的推薦影片

我們在建構推薦系統時,秉持的原則就是協助使用者找到他們想觀看且對他們而言具有價值的影片。推薦系統主要在兩個位置運作:使用者的首頁和「即將播放」面板。首頁是你開啟 YouTube 時第一個看到的畫面,其中會顯示個人化推薦內容、訂閱項目,以及最新動態和資訊等。而在觀看影片時,系統會根據你目前觀看的影片,以及我們認為你可能感興趣的內容,推薦建議內容在「即將播放」面板當中。

▲ 「即將播放」面板的推薦影片

早在 2008 年,我們就開始著手建構推薦系統,但當時提供的體驗和現在截然不同。舉例而言,假設你最常觀看烹飪類別的影片,但首頁只因為最新推出的運動和音樂影片觀看次數最高就向你推薦這些影片的話,是不是很令人失望?這就是 YouTube 早期的做法。系統會根據影片的受歡迎程度決定排名,建立一個龐大的「發燒影片」頁面。觀看過這些被推薦影片的使用者並不多,絕大多數 YouTube 觀看次數都是由平台以外的搜尋或他人分享的連結而來。

如今,我們的系統會從數十億部影片中,完全根據你的興趣量身打造出推薦內容。舉例來說,因為我觀看了一場 USC 美式足球經典賽事的精華片段,系統便幫我找出當年其他運動賽事的精華片段,而如果沒有推薦系統,我絕對不會知道有這些影片可看。和其他平台不同的是,相較於透過使用者本身的社群網路找到推薦內容,精確預測使用者想觀看的影片,才是 YouTube 推薦系統成功的關鍵。

為了做到這一點,首先我們掌握了每個使用者在觀看影片時都有自己獨特的習慣。然後,系統會將你的觀看習慣與類似使用者比較,並根據這項資訊推薦其他你可能想看的內容。因此,如果你喜歡某部網球影片,而系統注意到其他喜愛同一部網球影片的使用者同時也喜歡爵士樂影片,可能就會向你推薦爵士樂影片,即使你從未觀看任何的爵士樂相關影片 (針對新聞與資訊等類別的影片,系統會採取不同的做法,稍後會進一步說明)。幾年前,系統向我的大女兒推薦 Tyler Oakley 的影片,因為這是當時許多觀看 Vlogbrothers 的使用者也會觀看的內容。結果她成為 Tyler Oakley 的忠實粉絲,我們還帶她去參加粉絲見面會。

▲ 使用者可自行暫停、編輯或刪除自己的 YouTube 搜尋資料

當然我們也知道,並非所有人都願意隨時與我們分享這項資訊。因此我們設計了控制選項,讓使用者決定要提供多少資料。這表示你隨時都可以暫停、編輯或刪除自己的 YouTube 搜尋和觀看記錄。

▲ YouTube 推薦系統自 2008 年不斷進化並為全球使用者提供合適的內容

系統如何提供個人化的推薦內容

為了提供這類個人化推薦內容,推薦系統並不會「照本宣科」以固定方式運作,而是會參考超過 800 億筆我們稱為信號的資訊,每日從中學習,不斷進化。也因為如此,要實現更高的透明度並非只是列出推薦系統採用的公式這麼簡單,而是要充分瞭解饋送至系統的所有資料。系統將透過綜合考量下列幾項信號,以得知你可能會滿意的內容:影片的點擊次數、觀看時間、問卷調查的答覆、喜歡和不喜歡的人數。

  • 點擊次數:影片點擊次數是頗具參考價值的指標,因為點擊越多代表越受歡迎。畢竟,誰會點選自己不想觀看的內容?

不過,我們在 2011 年發現事實並非如此,因為點選一部影片不代表你確實看過這部影片。舉例來說,假設你正在搜尋去年溫布頓網球賽的精華片段。你邊捲動頁面邊瀏覽,然後看中其中一部影片,縮圖是比賽場景,標題也有提到賽事,但點進去才發現這是某個人在自己房間內談論比賽的影片。之後你又點選了系統在「即將播放」面板中推薦的影片,結果發現又是另一位球迷在談論比賽。你一次又一次地點選這些影片,最後系統終於向你推薦你想要觀看的影片內容。這就是我們在 2012 年加入「觀看時間」的原因。

  • 觀看時間:指得是你看過哪些影片以及持續觀看多長的時間,透過這項個人化信號資訊,可以讓系統知道你最可能想觀看什麼樣的內容。所以如果有網球迷觀看了 20 分鐘的溫布頓網球賽精華片段,以及短短幾秒鐘的賽事分析影片,我們就可以放心假設他們更想要花時間觀看那些比賽的精華片段。

當我們首次將觀看時間納入推薦系統之後,觀看次數的數據立即下滑了 20%。但是我們相信,為觀眾提供更多價值是更重要的。儘管如此,並非所有觀看時間都具有相同的資訊價值。有時我會隨機播放幾部影片直到深夜,但其實我大可利用這些時間在 YouTube 上學習新的語言,或跟著創作者一起精進我的廚藝。我們不希望觀眾對花在觀看影片上的時間感到後悔,所以我們必須更加努力,設法評估使用者在 YouTube 上投入時間所獲得的價值為何。

▲ YouTube 透過使用者問卷調查優化推薦系統
  • 問卷調查答覆:為實際確認觀眾對於觀看的內容是否滿意,我們會評估所謂的「有價值的觀看時間 (valued watchtime)」,也就是確認使用者認為觀看影片所花費的時間是否具有價值。我們會在使用者問卷調查中請你為觀看過的影片評定一到五顆星的分數,並將你的答案做為參考指標,藉此衡量你對內容的滿意度,進而評估有價值的觀看時間。如果影片只獲得一或兩顆星,我們會詢問為何給出偏低的分數;同樣地,如果影片獲得四或五顆星,我們也會詢問你原因,是因為這部影片具有啟發性或重大意義?而系統在計算有價值的觀看時間時,只會納入獲得四或五顆星的高評價影片。

當然並非所有使用者都願意為看過的影片填寫問卷。所幸我們已根據實際獲得的答覆,訓練出一個機器學習模型,用以預測所有人對問卷調查的可能答覆。為測試預測結果的準確度,我們刻意不將部分問卷調查的答覆加入訓練程序,以持續監控系統是否能密切追蹤實際的答覆。

  • 分享次數、喜歡和不喜歡的人數:平均而言,如果使用者分享了影片或表示喜歡,就代表滿意度可能較高。我們的系統會根據這項資訊,嘗試預測你表示喜歡或分享其他相關影片的可能性。如果你對某部影片表示不喜歡,或許這就是你對這部影片不感興趣的信號。

不過就像推薦內容一樣,每個信號的重要性都取決於你。如果你會分享所有看過的影片,包括那些你給一或兩顆星的影片在內,系統在推薦內容時,就知道不必過於加重計算你所分享的影片。基於以上考量,我們的系統並不會依循特定公式運作,而是會隨著你的觀看習慣動態調整推薦機制。

秉持負責的態度提供推薦內容

點擊次數、觀看次數、觀看時間、使用者問卷調查、分享次數、喜歡和不喜歡的人數等信號資訊,在產生音樂和娛樂類別的推薦內容時非常實用,而這些正是大多數使用者前來 YouTube 觀看的內容。然而這幾年來,造訪 YouTube 觀看新聞和資訊內容的使用者人數也持續成長。無論是最新的即時新聞或複雜的科學研究,這些主題都格外注重資訊的品質,前後文的重要性更是不容忽略。一些使用者可能對於宣稱「地球是平的」的影片感到非常滿意,但這並不代表我們希望推薦這類品質不佳的內容。

秉持負責態度的推薦系統,是我們經營平台不可或缺的重要環節。推薦系統會提供觀眾優質的資訊,並盡可能避免他們看到有問題的內容。推薦系統也有助於落實《社群規範》的規定,這套規範嚴謹定義了 YouTube 允許及禁止的內容。

自 2011 年起,我們就開始運用推薦系統防止大量觀眾接觸到品質不佳的內容。我們建構了分類程式來辨識兒童不宜或含有暴力元素的影片,並避免推薦這類影片。隨後在 2015 年,我們留意到聳動的小報內容出現在首頁上,因此採取行動調降這類內容的推薦排序。一年後,我們開始預測影片是否可能危及未成年人的安全,並將這類影片從推薦內容中移除。同時,為確保推薦系統公平對待弱勢族群,我們從 2017 年開始評估並強化系統所採用的機器學習技術的公正性,避免包括 LGTBQ+ 社群在內的受保護團體遭受有害內容的侵擾。

近年來不實資訊的盛行,也促使我們進一步擴展推薦系統的應用方式,將有問題的不實資訊和遊走在違規邊緣的內容 (瀕臨界線但並未明確違反《社群規範》的內容) 納入其中,這當中包括陰謀論影片 (「宣稱登陸月球影片造假」),或其他散布不實資訊的內容 (「柳橙汁可以治療癌症」)。

我們運用分類程式辨識影片是否「具有公信力」或瀕臨「違規邊緣」,以順利達成上述優化推薦內容的目標。這些分類作業必須依賴評估人員審核各頻道或影片中的資訊品質。我們在世界各地招募這些評估人員,並依據一套詳細且對外公開的分級規範實施相關訓練。此外,例如當內容涉及健康資訊的時候,我們還會向醫師等經過認證的專業人士尋求協助。

為確定影片的公信力,評估人員必須確認一些關鍵問題:內容是否提供所承諾的資訊或達成預定目標?達成影片預定的目標需要具備哪些專業技能?影片主講人及所屬頻道的信譽如何?影片的主題為何 (例如:新聞、運動、歷史、科學等)?內容是否以諷刺為主要目的?一部影片是否具有公信力將取決於以上這些問題的答案。如果是新聞和資訊內容類別的影片,上述分數愈高,影片獲得推廣的機會就愈大。為判定影片是否為違規邊緣內容,評估人員考量的因素包括但不限於:內容是否不準確、是否涉及誤導或詐欺、是否未顧及他人感受或包容性低,以及是否有害或可能造成危害。系統會綜合以上結果計算分數,據以判定影片是否內含有害的不實資訊,或者是否為違規邊緣內容。任何被歸類為違規邊緣的影片,推薦系統都會調降該影片的排序。

接著這些人工評估結果能幫助訓練系統建構決策模型,這樣我們就能將他們的評估結果擴大套用至 YouTube 平台的所有影片。

回應有關推薦系統的常見問題

推薦系統在整個社群中扮演關鍵的角色,不僅能建議觀眾觀看他們喜愛的內容,還能協助創作者觸及新觀眾。對整體社會大眾而言,推薦系統在協助防範有害不實資訊散播上具有重大意義。我們承諾堅守對於 YouTube 社群和社會大眾的責任,因此就算點擊次數、觀看時間、使用者問卷調查答覆、喜歡和不喜歡的人數等因素是系統獲取資訊的重要信號,若與我們的承諾有所牴觸,也會不予採納。

另外還有一些關於推薦系統的常見問題,我認為有必要在此回應:

  1. 違規邊緣內容是否能獲得最高參與度?

事實上,根據問卷調查結果和意見回饋,我們發現多數觀眾不希望系統推薦違規邊緣內容,甚至有許多人覺得這類內容令人不愉快或甚至反感。當我們將猥褻性質或類似小報的內容調降排名之後,相較未實施任何限制的期間,觀看時間在 2 個半月內反而成長了 0.5%。

此外,目前也沒有任何證據顯示違規邊緣內容平均獲得的參與度高於其他類型的內容。以主張地平說的人士發布的內容為例,雖然在所有上傳的影片當中,地平說影片的數量遠遠超過地圓說影片,但平均而言,地平說影片獲得的觀看次數顯然較少。問卷調查顯示,YouTube 上只有極小部分的使用者對違規邊緣內容感到滿意。我們已投入大量時間及資金,確保這類內容不會透過我們的推薦系統觸及更廣大的觀眾群。如今,違規邊緣內容獲得的觀看次數絕大多數來自連結至 YouTube 的其他平台。

  1. 違規邊緣內容是否有助於增加 YouTube 的觀看時間?

對於絕大多數的使用者而言,在 YouTube 上觀看違規邊緣內容並不能算是善用時間。基於這個原因,我們在 2019 年首度開始調降違規邊緣內容在推薦系統中的排名。當時在美國,未訂閱頻道的使用者經由系統推薦觀看違規邊緣內容的時間隨即就減少了 70%。如今,經由系統推薦觀看違規邊緣內容的比例遠低於 1%。

  1. 推薦系統是否會建議觀眾觀看日益極端的內容?

如我先前所解釋,我們會主動調降品質不佳的資訊在推薦系統中的排名。但我們也會採取額外行動,針對觀眾可能感興趣的主題,向他們推薦具有公信力的影片。比如說,當我觀看一部關於 COVID-19 疫苗的影片,我的「即將播放」面板中就會顯示如 Vox 和 Bloomberg Quicktake 等值得信賴的來源提供的影片,而不會出現內含誤導性疫苗相關資訊的影片(在系統可偵測的範圍內)。

除了這些 COVID-19 新聞和解說影片以外,系統還會根據我個人的觀看記錄,向我推薦其他主題的內容,例如 Saturday Night Live 的喜劇小品,或一場關於超級瑪利歐效應的 TEDx Talk這類多元的個人化建議能協助觀眾接觸新的影片主題和形式,而非一再重複觀看相同類型的影片。

愈來愈多獨立研究人員開始探究科技平台對於違規邊緣內容的觀看數有何影響。雖然目前研究仍持續進行中,但近期發布的報告指出,YouTube 推薦系統實際上並未引導觀眾觀看極端內容。YouTube 上新聞和政治性內容的觀看數更能普遍反映出觀眾的個人偏好,與他們的網路使用習慣相呼應。

  1. 違規邊緣內容是否能營利?

首先,我們的《廣告客戶青睞內容規範已禁止許多遊走在違規邊緣的內容從事營利活動。許多廣告客戶也向我們反應,不希望在 YouTube 上與這類內容有任何關聯,並經常選擇排除在這類內容中放送廣告。這代表每一次有人觀看違規邊緣影片,頻道就會錯失一次營利機會,進而導致 YouTube 收益產生實質損失。同樣地,這類內容不僅降低信任感,同時也讓人們對於廣告合作夥伴,以及一般大眾、媒體和政策制定單位產生疑慮。事實上,由於我們採取更多行動善盡自身的責任,因此 YouTube 及整體創作者經濟也隨之成長。善盡責任有助於業務成長。

既然如此,為什麼我們不直接移除違規邊緣的內容?有別於恐怖主義兒童安全等範疇,不實資訊不僅變化及演進的速度快得驚人,且往往缺乏明確的定義。此外,不實資訊也可能因個人觀點和背景而異。我們認知到,有時必須與具有爭議或甚至是令人反感的內容共存。因此我們將持續以建構負責任的推薦系統為首要目標,並採取實質行動,防範系統廣泛推薦這類內容。

綜合以上所述,我們為善盡自身責任而針對推薦系統所投入的一切努力,已產生具體的影響。具公信力的新聞內容觀看時間大幅增加,而違規邊緣內容的觀看時間則明顯下降。這不代表我們已解決問題,而是意味著我們必須不斷修正並投資我們的系統,精進再精進。我們的目標是將經由系統推薦觀看違規邊緣內容的次數,降低至 YouTube 整體觀看次數的 0.5% 以下。

YouTube 的使命是賦予每個人向世界發聲的機會,我家人的生活也因為 YouTube 出現極大變化。我的大女兒看了有助培養包容態度和同理心的影片內容後,性格上產生了深遠且正面的影響;我兒子因此順利突破線性代數課程的學習瓶頸;而我也從科技倫理領袖的演說中學習到相當多的知識和這領域的奧妙之處。我們對於開放原則的堅持已催生出新的聲音和構想,這是在其他平台難以實現的成果。包含 Marques BrownleeMostlySane NikkieTutorials 在內的創作者,也透過他們的專業技能、理念主張及真誠態度,啟發了數百萬觀眾。

由於各位不吝賜教,提供各種寶貴意見,我們的推薦系統才能日益完善,但眼前仍有許多進步空間,因此我的團隊和我將不遺餘力,繼續做好我們的工作,提供最實用且深具價值的體驗。

本文作者:YouTube 工程研發副總裁 Cristos Goodrow

史塔夫短評:推薦系統運作原理