9月20日,人民網再度發力,以《警惕算法走向創新的反面》為題,指出今日頭條等智能信息平臺帶來的最大問題,可能還不是侵權,而是走向創新的反面,甚至可能從根本上破壞創新的源動力。
三篇文章,猶如重磅炸彈,重擊一直視算法為制勝法寶的今日頭條。從今年7月人民日報發文《新聞莫被算法“綁架”》,到如今三評“算法”,不難看出官媒對今日頭條等信息客戶端的態度。
正視機器算法之不足,今日頭條回應全文
在9月21日下午,今日頭條發了一封回應信,大意就是:感謝人民網,機器算法有不足,但會努力改進。
以下為今日頭條回應全文:
正視不足,勉力前行
在今天,算法分發已經是包括搜索引擎、瀏覽器、資訊客戶端甚至音樂軟件在內的互聯網產品的標配。行業普遍認為,中國的算法分發走在全世界前列。人民網對算法分發的三篇評論,關心技術潮流,切中行業脈搏,考慮深遠。
感謝人民網在評論中把今日頭條作為案例來分析。作為全球最早依靠機器學習來做個性化分發的信息平臺,今日頭條理解媒體的這些憂慮。
今日頭條的初衷,是希望通過人工智能技術促進人與信息的交流。機器學習已經在信息分發中表現出了它不可替代的作用,尤其是長尾內容的分發和觸達。它和信息傳播介質的升級一起,降低了人們獲取信息的知識門檻,讓“知識普惠”從口號變成了現實。
機器學習和人工編輯,在現階段,是相輔相成的。未來也是如此。再聰明的人工智能,也只是一個需要不斷升級的工具,而人是不可替代的。這是一個不斷磨合和優化的過程。這也是人民網三篇評論的價值所在。
我們正視機器學習技術目前整體發展的不足,勉力改進。今日頭條,是伴隨著機器學習技術在信息分發領域的應用而發展起來的,還在成長,還需要經歷挑戰。
多謝社會各界的關注和支持。作為行業領導者,今日頭條有不可推卸的義務,讓基于機器學習的信息分發,給社會創造更大的價值。
專家觀點:算法的局限與改進
中國人民大學新聞學院教授、博士生導師宋建武最近撰文就此分析。其觀點如下:
近日,人民網連續刊載了三篇評論,對個性化新聞資訊推送服務中出現的亂象,做了切中時弊的分析。這三篇文章,引導我們對算法技術的本質特征,及其對傳播方式的影響,做出冷靜而深入的思考。
通過研究以今日頭條為代表的“個性化資訊分發平臺”,我們得出了一些關于現有算法的局限及其改進方法的認識和判斷。
其一,內容雜蕪。資訊平臺為最大規模地占有內容資源,在發展的特定階段,往往不加甄別地擴充所謂“自媒體”的內容,以致于內容數據庫中魚目混珠,虛假和低俗信息乘虛而入。平臺上大量低品質內容的供給,大規模地“創造”著對低俗內容的需求。而資訊平臺對此缺少管理手段,有些平臺甚至在主觀上還企圖借此提高“流量”和“用戶數”。
其二,算法單一。目前的各類“個性化資訊分發平臺”,基本上都是根據用戶信息點擊的歷史數據判斷其信息偏好,據此推送更多同類內容。點擊量高的內容和內容類別會作為初始設定,被推給更多用戶??紤]到用戶使用移動終端的場景近乎個人獨處,具有私密化特征,此種狀態下表現出來的信息需求,常常會對獵奇和低俗內容較為敏感,這類低質量信息往往點擊量較高。
其三,取值偏差。資訊分發平臺把對特定資訊的個人點擊量和整體點擊量(即所謂熱度)作為算法的主要甚至是唯一取值標準,使之成為機器通過算法進行推送的依據。而客觀全面地分析“熱度”,我們發現,這個指標更多地反映了用戶對于特定信息感興趣的程度,可以映射新聞信息的“趣味性”,但無法反映特定信息對于用戶個人和社會的選擇和決策行為的真正價值,即新聞信息的“重要性”。反映在平臺運營方的觀念上,就是他們誤把用戶對特定信息的“關注度”,當成了“重要性”。殊不知,從新聞信息本身的特性看,這種“關注度”,在移動終端上,往往體現的是用戶對特定信息的“興趣度”,而不是信息本身的“重要性”。
盡管基于海量信息聚合并以算法驅動精準分發的個性化資訊服務存在這些局限,而且商業性質的資訊平臺還容易受到逐利動機的影響,從而加劇這些問題。但不可否認的是,算法技術推動了信息傳播方式的顯著進步。
在移動互聯網時代,移動新聞客戶端成為公眾接收新聞信息的主要渠道。移動終端的個人化特點增強了個性化的信息需求,其便攜性促進了場景化的信息使用,而信息交互讓用戶成為傳播主體。同時,從PC互聯網時代開始,內容生產和傳播的門檻降低,社交媒體的興盛使傳播環境進一步開放,社會普遍信息化大大擴展了公共信息的規模。這些因素交織在一起,構成了移動傳播的特殊矛盾——如何實現海量信息資源與個性化信息需求的高效匹配。我們認為,對于這一問題的解決,基于大數據并運用算法而形成的人工智能是最有效的工具。算法技術對傳播方式進步的貢獻在于,它能夠以較高的效率和較低的成本,在社會普遍信息化所產生的海量信息供給中,為個性化需求尋得精準匹配結果,這是人工智能在信息傳播領域的應用,是技術進步的體現。
正如鄧小平同志倡導的,科學技術是第一生產力。我們不能站在技術進步的對立面,而應該更加積極主動地擁抱技術進步,在實踐中完善技術,利用技術獲得更大的進步。我們要看到,創新技術的應用和推廣,通常需要經歷漫長的適應調整期,探索過程中的困難和不足不應成為否認或質疑技術進步總體方向的理由。
具體而言,要想恰當解決在當前算法應用中出現的問題,不僅需要改進算法,還需要完善甄別信息真偽和優劣的手段,以及豐富信息價值的評判維度。
如何甄別信息?
算法的核心優勢在于對海量信息與個性需求的精準匹配,而高效匹配的前提是對信息的真偽和優劣的準確甄別。
對信息真偽的鑒別,國外的臉譜和谷歌、國內的微信和微博大多采用第三方核查的方式,然而,這些方式都屬于事后應對,未能形成預警機制,難以提前防范虛假信息的發布和傳播。隨著各類傳播平臺的用戶規模不斷擴大,虛假信息一旦被廣泛傳播,信息源的資質審查和事后懲罰都難以補償負面輿情效果。因此,傳播之前的攔截具有重要意義。目前互聯網信息傳播平臺普遍采用的辦法是借助技術手段進行事先核查。包括今日頭條在內的一些網站以“人工+機器”的模式構建防火墻,對敏感詞、“標題黨”和虛假信息進行攔截,也借助人工智能技術,模仿人腦機制,對低俗圖片進行攔截。目前,今日頭條等大型資訊類平臺都建立了儲量超過5000條的謠言數據庫用于篩查虛假信息,但面對數量巨大且層出不窮的虛假信息,與其建立謠言數據庫,不如建立常識數據庫,因為錯誤可以花樣百出,而常識則是相對穩定的。
對于信息優劣的鑒別,與評判標準有關,更與內容數據庫的來源結構有關。資訊平臺應當建立其甄別體系,對信息源進行有效甄別。目前互聯網資訊平臺已廣泛采取對優質自媒體內容的獎勵機制,并開始聯手一些深耕特定內容領域多年的傳統媒體,以加大優質內容的供給。
如何改進算法?
既然人工智能在海量信息和個性需求的精準匹配上具有明顯優勢,那么匹配的具體規則即算法應該如何制定,才能既滿足個性需求又促進優質信息傳播?實際上,這個問題含有一個深層矛盾,那就是個人與社會對信息的價值判斷在多大程度上能夠達成一致?假設這個一致可以達成,又該如何把個人和社會對信息的價值判斷體現在算法規則中?
算法規則體現著新聞信息生產和分發機構的價值觀。商業性的大型資訊分發平臺以追求商業利益為經營目的,在算法設計中往往傾向于迎合用戶需求,以獲得盡可能多的點擊量。即便如此,作為一個公共信息分發平臺,其基本的社會責任也要求它,不能偏廢“重要性”這一最本質的新聞價值維度。對于正打算采用算法技術,落實移動優先戰略,以提升傳播力和影響力的主流媒體來說,他們的社會功能和歷史使命決定了,他們不能照搬商業平臺以點擊量為主導的算法規則,而必須更全面地考慮用戶個人更本質的信息需求,尤其是個人在社會化過程中用于建立其個人與社會的一致性的信息需求,以有效地幫助其降低選擇和決策的“不確定性”。因此,主流媒體的算法規則設計應該在吸取現有算法運用的經驗和教訓的基礎上,著力于體現新聞的“重要性”。
如何豐富取值?
目前資訊分發平臺普遍使用的信息價值評判標準是點擊量,點擊量越大的信息,傳播范圍越廣。對于新聞信息而言,這樣的取值雖然可以使新聞供給趨近于所謂“公眾興趣的最大公約數”,但對于使用移動終端的用戶而言,受興趣牽引的點擊會偏向于娛樂性和獵奇性較強的信息,而主要基于點擊量取值的算法規則,又會把這類信息推送到更大范圍,在商業資訊平臺上色情低俗信息的大量傳播就是典型例子。由此可見,信息價值評判的取值方法對基于算法的個性化資訊服務影響重大。目前以點擊量為主的取值方式,維度單一,導致了推送的內容過于娛樂化,而缺乏對信息重要性的真正體現。
在新聞傳播學科內,新聞價值的內涵有普遍接受的定性描述——接近性、時效性、顯著性、趣味性和重要性。前兩個價值要素分別指的是新聞事件發生的地點和時間,顯著性指的是新聞事件涉及的重要人物和組織。這三個要素實際上都是場景性指標,具有量化特定價值判斷的作用。在我們的實際考察中發現,發生在移動終端上的點擊量主要體現了趣味性要素。最后,重要性要素是新聞價值中最難以通過量化標準來體現的,而它恰恰是新聞信息價值判斷的核心,它既需要在個人價值判斷與社會整體價值判斷的統一中尋找,還體現著淺表的事件描述與深層的數據分析的區別,通常也反映著業余的信息貢獻者與專業的內容生產者的差異。目前的實踐尚未探索出恰當體現新聞“重要性”的取值方法及與之匹配的算法規則,對于這一問題的理論研究也剛剛起步。
從操作層面來看,主流媒體生產的內容通常有專業水平的保障,也自然趨向于與社會主流價值觀相一致;而自媒體生產的內容,則受到成本投入和運營水平的限制,也難免因逐利動機而標新立異、嘩眾取寵。因此,在更為細致的算法規則研發成功之前,按照信源類型對信息價值賦值,也許是具有較高可行性的策略。
來源:康璐瑋,《人民日報三批今日頭條,推薦算法“此路不通”,資訊平臺未來路在何方?》,文化產業新聞;宋建武,《宋建武:個性化新聞資訊推送服務當前算法的局限及其改進》,人民網傳媒。
文編:李賽可、張紓
美編:陳咨霖