摘要:當今社會中,網絡社區愈發占據著更多的社交環境,成為許多人日常生活不可分割的部分,但與此同時,網絡社區環境隨著近年來疫情影響導致的大量人員流入開始分化與變質。為得到后疫情時期各大網絡社區的文化屬性變化與差異,了解不同條件下的個體對不同網絡社區的需求程度,文章結合現有的部分研究理論,通過Python爬蟲與詞頻分析、問卷調查與SPSS統計、線上線下非正式采訪,從六大社區與隨機人群兩個方面獲取后疫情時代的網絡社會特征,進行進一步梳理研究,提出應當注重網絡虛擬社區的分析研究,把握網絡社區屬性與風氣導向。
關鍵詞:網絡社區;詞頻分析;問卷調查;網絡屬性;
一、緒論(一)分析背景與現狀1,社會背景淺析
隨著現代社會科技不斷發展,互聯網早已成為人民生活中必不可分的部分,其已經融入進每一個人生活的方方面面,從飲食出行到娛樂社交,網絡社會已經是當代國人日月相處、很難避開的環境。特別是自2020年新冠疫情與其所帶來的各類封控管理開始,以實體店、公共場所為代表的各類線下服務與生活以肉眼可見的速度加速衰弱,而與之相對的,各種網店、網站、網絡娛樂、社交平臺等各種線上生活日益增長,并有著很客觀的增長速度(具體網絡社會數據近年變化在下述)。而到了當今2023年后疫情時代,網絡社會、線上生活仍在繼續增長,以符合當代時代與國家發展需要。但經歷了疫情時期,在后疫情時代的網絡社會面臨著各種問題與各種新現象。
2,政策背景淺析
我國對于互聯網的相關管理與政策從上個世紀90年代就初現雛形,并在21世紀前十幾年經歷了一定程度的發展。但這個時期的互聯網仍處于野蠻生長的階段,也沒有太多和全面的了解,相關政策也多是著眼于局部與最核心的一些方面。以這二十余年的國家監管為代表,主要可以分成三個階段:一、監管的引入和奠基階段(1994年-1999年);二、監管體系全面建立階段(2000年-2007年);三、監管優化與擴展階段(2008年-2012年)。這三個階段也鮮明地表現了我國互聯網的前二十余年變化,直到2013年左右開始的新階段。2013年起,互聯網產業革命全面爆發,國外也環繞互聯網出現了各類事件,這一切都使得國內的互聯網社會因政策的引領進入了新階段。也是同年,中央網信辦開始開展治理網絡構成清朗網絡空間行動,定基了至今每年固定的“凈網行動”。再到2017年,圍繞十九大新的政策導向,國家針對網絡社區制定了以《互聯網論壇社區服務管理規定》為主的多項管理條案,并進一步推動網絡管理與凈網行動。最后來到經歷了疫情網絡社會爆炸發展的后疫情時代,關于后疫情時代的各種網絡社會特征與狀況,其政策內涵主要以疫情時代與二十大報告為導向。
(二)分析目的及意義當代社會中,網絡社會是其極為重要的組成部分,網絡社會因其特有的開放性、海量性、時效性與無距離感(全球性)而更適應當今時代與社會交流,故此而獲得了極大程度的發展。當今時代,只有牢牢把握住網絡社會上的話語權與網絡輿論,才能發出更大的聲音、更大程度的站到優勢地位。
以國家高校為例,當下網絡社會充滿著各類抹黑輿論與極端評價,多數高校沒有把握網絡機遇、網絡話語權,各類言論在網絡社會上迅速傳播,甚至傳到了現實生活中,這對各大高校的社會形象、社會評價、甚至是學校利益都產生了嚴重影響。
而再說當下后疫情時代,經歷了疫情時代與科技發展誘導的互聯網各項使用高速增長,當今網絡社會也面臨著快速發展背后的各種問題與矛盾,隨著時間推移與社會發展,這類問題與矛盾也愈加嚴重,一定程度上影響著人民的身心健康。把握網絡社會氛圍、抓住網絡社會話語權,這對于當下社會的每個個人、集體、公司、甚至政府國家都具有極為重要的意義。
(三)相關概念闡述1,網絡社會
“網絡社會”一詞最開始指信息時代的社會,是作為現實空間的一種新社會結構形態的“網絡社會”,首次出現于學者狄杰克(Jan van Dijk)于1991年出版的書籍《De Netwerkmaatschappij》。但隨著時代發展,“網絡社會”一詞的所指涵義也發生變化。在當今,我們擬可將“網絡社會”的涵義歸納為兩大類:作為現實空間一種新社會結構形態的網絡社會(Network society),與基于互聯網架構的電腦網絡空間的網絡社會(Cyber society),也可稱之為虛擬社會。
在國內學術界中,網絡社會(Cyber society)比起網絡社會(Network society)的研究更為熱門。它是一種虛擬的社會,存在于Internet通過網絡技術等模擬現實情境所構成的一個溝通信息的虛擬空間(virtual space)或電子空間(cyber space)。如今,這個空間已經成為了人類交往的一種虛擬網絡環境,且就其所產生的廣泛社會關系而言,它也是一種社會形式。本文所研究的網絡社會即指網絡社會(Cyber society)。
2,網絡社區(網上社區/虛擬社區)
“網絡社區”的概念最開始由學者霍華德·瑞恩高德(Howard Rheingold)于1993年提出,并將其定義為“一群通過計算機公告欄和網絡交談和交流思想、可能相互見面也可能不見面的人, 經常在電腦空間里相遇而形成的文化集合”。而隨著時間推移,“網絡社區”的概念也被不同學者從不同角度進行闡述,盡管意見不大相同,但學術界對于“網絡社區”的普遍認識一致,即“互聯網環境下一群相互交流的個體的集合”,如各種主題論壇、博客、社群等。虛擬社區幫助人們在網絡上構建了超越時間和空間的虛擬生活空間,使用戶可以遠程參與學習和娛樂。
(四)主要研究內容本次調查分析主要圍繞后疫情時代的國內網絡社會進行,主要基于武漢圖夫科技有限公司的開源程序文字云與SPSS軟件的數據分析進行研究。本次調查采用點面結合的方法,一方面,針對選定的六大各具特色的網絡社區為對象開展調研(六大社區分別為:抖音、微博、bilibili、知乎、貼吧、小紅書);另一方面,進行大量的用戶數據意愿收集,進行數據統計。結合Python爬蟲的文字云詞頻分析與結合問卷收集進行的SPSS數據分析即分別用于各自方面。與此同時,還進行部分線下官方調研采訪,與一些社區、公司對接,進行相關詢問調查,并進行結論交流。
主要研究內容具體包括:
(1)根據公共數據、社區年報等正規消息源大量查找得到六大社區基本信息。主要以六大社區為樣例,進行疫情時代至后疫情時代四五年間的社區用戶數、熱度等狀況查找,以便進行初步分析,得到各社區的特征要素并備用。另一方面,查找六大社區的男女比例、用戶年齡分布,這對后續研究也具有重要作用,是進行全面分析的基礎。
(2)基于開源工具文字云進行以六大社區為對象的社區特征詞提取與詞頻分析。通過爬取六大社區網站的各類文本作為分析庫,將得到的原始文本通過文字云分析詞頻,最后輸出詞云。但值得注意的是,文字云并不能完美進行有效關鍵詞的提取分析,所以需要進行后期人力篩選與返回本文分析,以便得到真正需要的社區特征詞集。
(3)基于SPSS軟件進行問卷收集數據統計分析。針對所要分析的社區對象,創造問卷收集,進行使用意愿等方面統計,并收集部分完全匿名性的看法評論。SPSS對于所收集到的問卷信息,進行包括但不限于分類匯總、樣本t檢驗、方差分析等方面的數據處理,以最后分析得到部分具有參考意義的結論。
(4)通過網絡上與線下進行相關專業人士采訪,總結相關更具有針對性的看法。與社區網絡監管員、網絡狀況分析員,網絡社會公司的網絡管理員、工作人士等進行交流、非正式采訪,得到相關更具有專業意義的看法,以用來對本次調查進行另一層面的鑒定與指導。同時查找政府疫情與后疫情時代的網絡社會管理政策,進行更具有權威性的理論指導。
二、理論基礎(一)Python爬蟲互聯網上的所有信息資源都是通過其統一的且在網上的地址URL(統一資源定位符,即網址)作為相關標志放在服務器上,而對于我們所需要網址的訪問,是通過超文本傳輸協議(HTTP)來實現。HTTP是一個簡單的“請求-響應”模式的無狀態應用層協議,它通常運行在TCP之上,指定了客戶端可能發送給服務器什么樣的消息,以及得到什么樣的響應。
HTTP是基于“客戶-服務器”模式且面向連接的,典型的訪問網址基本過程如圖所示:

互聯網上大量資源節點相連在一起,如同一張大大的蜘蛛網。網絡爬蟲(Crawler)又稱網絡蜘蛛(Spider),這也是指其就像蜘蛛一樣,可以在網上沿著URL線路爬行、可以按照事先制定的規則(爬蟲算法)自動地瀏覽并獲取網頁信息的計算機程序。
網絡爬蟲的常用功能有:搜索引擎、爬取圖片、爬取網站用戶公開信息、爬取多站文本內容等等等等。爬蟲的出現,可以在一定程度上代替手工訪問網頁,使人工訪問互聯網的操作自動化,以更高效地利用好互聯網中的有價值信息。
但注意,網絡爬蟲需要注意合法性問題。《中華人民共和國民法典》第一千零三十三條明確規定了對個人信息的網絡隱私權,在網站上爬取涉及個人隱私的數據是不允許的,更不能將爬取的數據進行商業用途、違反法律規定。本文對于各大社交網站上用戶發布、評論的內容進行特征分析,僅用于本實踐項目的調研報告,未涉及商業用途,也未涉及個人隱私等受法律保護的信息。
(二)詞頻分析在信息爆炸的時代,對于互聯網上的海量數據,我們需要從其中快速找到自己需要的有價值信息,詞頻分析就是這樣一種有效的工具。詞頻分析(Word Frequency Analysis)是對文本數據中重要詞匯出現的次數進行統計與分析,是文本挖掘的重要手段。它的基本原理是通過詞出現的頻次多少的變化,來確定熱點及其變化趨勢。
詞頻分析基于自然語言處理技術,運用算法對文本進行分析處理,常用的詞頻分析相關技術有Jieba。其分詞主要是基于統計詞典,構造一個前綴詞典;然后利用前綴詞典對輸入句子進行切分,得到所有的切分可能,根據切分位置,構造一個DAG(有向無環圖);通過動態規劃算法,計算得到最大概率路徑,也就得到了最終的切分形式。
具體而言,用Jieba進行分詞與后續進行詞頻統計包括以下幾步:
(1)讀取文本文件。
(2)對文件中的文本進行預處理。
(3)通過Jieba庫的函數定義“用戶詞典”與“動態調整詞典”。
(4)使用Jieba的搜索引擎模式處理文本,進行分詞。
(5)運用collections庫的函數進行詞頻統計。
(6)基于詞性輸出特征詞集。
(7)對輸出詞集進行人工修正。
而對于詞頻分析的統計算法有多種,其中比較常用的是基于詞頻的TF-IDF算法與基于詞義的TextRank算法,Jieba就是分別基于TF-IDF和TextRank模型抽取關鍵詞。
TF-IDF算法:一種以詞袋的形式獲取關鍵詞的文本挖掘算法。其會評估一個詞語對整個文本的重要程度,即某個詞對該文本的重要程度以及其在文本中出現的次數成正比例、與文本庫中包含這個詞語的文本頻率成反比例關系。該算法主要包括兩個指標:TF值與IDF值。TF值表示一個詞在文本中的出現頻率,IDF值表示這個詞在整個文本庫中的出現頻率。通過將這兩個指標相乘,就可以得到一個單詞在文本中的重要程度。
TextRank算法:一種基于圖論思想的文本關鍵字提取算法。思想來自于Google公司的PageRank算法。它根據詞共現的方法把文本中的詞語或句子看作圖中的節點,根據詞句的相關性確定帶權邊,從而將文本轉化為圖,最后利用PageRank算法對文本中的節點排序,從而獲得關鍵詞。
這里只是對詞頻分析進行簡單介紹,本文選擇直接運用武漢圖夫科技有限公司的開源程序文字云進行分析,故而在這里僅作為簡單了解。對Jieba庫的運用,或是對于TF-IDF算法和TextRank算法等文本分析算法的研究,可作為后續對網絡社會研究更深入的分析方法。
三、具體調研(一)社區屬性特征詞提取對于六大社區的特征詞分析與屬性提取,主要分為以下幾步:
(1)大致了解社區結構,確定原始文本來源。
(2)按照規劃爬取、儲存社區原始文本。
(3)通過文字云進行原始文本的特征詞初步分析。
(4)對初步的詞頻分析結果進行二次人工整理。
(5)輸出最終得到的詞頻分析結果,得到社區屬性特征詞集。
關于原始文本來源的確定,六大社區方式不盡相同,但均是圍繞熱點、高討論度、考慮平均選取,最大程度減緩特定話題的影響趨勢。六大社區的原始文本選取源可以分為三類:抖音來自于視頻評論區,B站來自于視頻評論區與彈幕兩個方面;貼吧與小紅書來自于推文評論區;知乎與微博來自于話題下推文與評論區兩個方面。
這里以B站為例,進行原始文本的來源確定:
對于任意網絡社區,都要考慮到當下普遍存在的用戶個性化推薦,故而考慮到最純粹的進行視頻下評論區選取,這里采用不選擇興趣偏好的新注冊賬號。針對B站而言,對象即選擇純凈賬號下的綜合熱門、結合排行榜全站與其他分類共計五十個視頻,這些視頻的評論區就被選擇為原始文本來源。
確定原始文本來源后,基于requests與bs4模塊運用Python爬蟲獲取視頻評論區,按熱度排行的前二百條一級評論與最新一批視頻彈幕,并將其均儲存在txt文件里備用,這里以熱門區視頻“【泛式/劇情MAD】哥哥的女朋友,只能由我來選......”(BV1sW4y1Z7pn)為例。
對于網頁爬蟲分為靜態網頁與動態網頁,而經檢驗,對六大社區原始文本來源的網頁均為動態網頁。對于動態網頁,首先進行原始文本對象的位置查找,對于B站評論區的一級評論位置查找即如圖所示:

找到原始文本的對應位置,并獲取請求頭,在pycharm里結合requests與bs4庫,進行相關代碼編寫,并將獲取結果儲存在“評論.txt”中即可。
相關代碼如下:

對彈幕的提取操作同理。五十個目標視頻評論區重復操作完成后,即可得到B站社區的原始文本。
對于得到的社區原始文本,我們運用文字云將其錄入,進行初步的詞頻分析,這里仍以上一步的視頻為對象,所得到的詞頻分析結果相對粗糙,如占據多數的有涉及視頻主內容的“赤音”、“露比”與不具有任何代表性的日常生活用語“喜歡”——這些問題在大量原始文本的積累下仍會存在。故針對這些情況,需要進行二次人工整理,將這些不符要求的詞匯剔除,獲得最終的特征詞集。
對于“【泛式/劇情MAD】哥哥的女朋友,只能由我來選......”此樣例視頻,以其最終的特征詞集生成的詞云如圖所示:

注意:這其中會出現如“每天一遍”與“再來億遍”此類意義近似相同或完全相同的詞匯,在最終分析時,會將此類詞匯在詞集中歸一。也會出現像是“首頁”、“通知書”這種明顯可以合成的詞匯,但文字云在進行初步詞頻分析時會將這種組合詞分開,這種情況下兩個可組成詞匯的詞頻會相對接近。此時經過鑒別,就可以在二次人工整理時將其按照社區的可能屬性,將其重新整合。
(二)調查問卷創造與收集關于隨機人群的調查問卷填寫收集,主要可以分為以下幾步:
(1)對各種條件人群進行粗略的隨機抽樣采訪。
(2)圍繞采訪所得的需求與看法,討論創造初始問卷。
(3)隨機選取部分對象進行初步填寫。
(4)依據初步填寫問題,修改問卷得到最終版問卷。
(5)對隨機人群廣泛投放,收集問卷填寫結果。
(6)將問卷結果轉化成表格,以便后續分析。
在創造問卷之前,需要先去大致認知基本情況,確定問卷收集與分析的目的:輸出后疫情時期各類人群對于網絡社會的依賴情況,以及對于各大社區的需求與評價信息。以所需得到的最終目的、國內后疫情時期的政策指引為導向,參考當下現有的研究分析情況,整合出采訪內容的大致框架,進行對各種條件人群的隨機抽樣采訪。
對于本文項目所研究的對象而言,第一步進行的隨機抽樣采訪要具有協調性與普適性。這也要求著對于采訪對象的選取要涵納各類人群,主要以年齡為主要區分,除此之外也要考慮一定的地域經濟因素。考慮到后疫情時期互聯網與以抖音快手為主的網絡社區用戶類型更加豐富,對于年齡的分層主要分為:10歲以下;10至24歲;25至40歲;41至60歲;60歲以上。而對于地域經濟等其他因素僅保證選取的對象來源于不同水平即可。
初始問卷的創造主要依據最初框架與采訪內容進行,并要綜合考慮后疫情時期的實際情況以及國家相關政策指引。在初始問卷完成后進行測試修改,得到最終版問卷。
最終版問卷主要包括三個部分:基本信息(確定用戶所屬人群)、針對社區的反饋(與本文另一部分得到的社區屬性相互檢驗,從客觀與主觀角度多方面得到更具有普適性的社區模型)、對于總體網絡社會的反饋(用于最終的整體分析)。具體內容主要包括社區內容(作品質量、評論素質)與社區氛圍(平臺運營、用戶素質)兩方面。
最終版問卷的流程圖如下所示:

對于問卷目標人群投放方面,與第一步類似,問卷的人群隨機投放要注意協調性與普適性。這也要求問卷投放目標要進行預先確定,對各年齡層的投放以青少年群體居多。值得注意的是,投放問卷可選擇在QQ、微信等與六大社區(抖音、微博、bilibili、知乎、貼吧、小紅書)呈弱相關或無相關的網絡平臺進行,對于例如快手等與六大社區有較強相關性的網絡平臺不要選擇投放,否則會導致問卷結果損失一部分普適性。
(三)線上線下相關人士采訪此方面主要體現在對相關專業人士的非正式采訪,從多個角度,線上線下、網絡現實,多維得到一定的有參考價值信息。考慮到可采訪對象受限、可選渠道少等現實因素,本文調研項目采訪對象主要有企業網絡社區管理員與社區網格員。
對于企業網絡社區管理員的采訪采用完全匿名的非正式采訪形式,線上與可聯系的專業人士對接,進行部分話題采訪。采訪內容包括但不限于:(1)在日常平臺運營中發布內容的潛在趨勢、對平臺的話題輿論管控。(2)平臺日常的舉報、投訴情況受理與過審情況評估。(3)平臺日常維護運營的人工管控與程序自動管控的對應比重。(4)對平臺的用戶分析與環境評估。(5)對當下網絡社會從工作人士角度的部分看法。
對于社區網格員等相關社區工作人員的采訪則側重于網絡社會對人民現實生活的影響分析。采訪內容包括但不限于:(1)后疫情時期來臨后居民的網絡生活狀況。(2)日常社區管理下關于網絡社會的普遍問題。(3)日常的居民涉及網絡社區的相關事件與對策。(4)實際社區中關于網絡生活的困難與需求。(5)社區對于網絡輿情的相關引導與問題化解。
此部分的采訪結果會進行有選擇性的精煉總結,并進行與當下相關政策的交互看待,得到部分有一定高參考價值的結果作為參照指引。
四、調查結果分析(一)六大網絡社區方面(1)基本信息分析
對于六大社區,我們首先進行社區的基本信息分析。
以各網絡社區官方與公司年報等為信息源,我們可以得到各社區19年以來疫情與后疫情時期的歷年平均MAU(月活躍用戶數),其可作為各社區熱度分析的重要參照指標:

我國網絡社會從2013年互聯網革命爆發后就開始高速增長,當時的主要網絡社區有天涯、虎撲、貼吧等,而一直發展到2020年后的疫情時期,網絡社會又開始新一輪豐富發展與變化。由圖可看出,以抖音為代表的短視頻社區與以微博為代表的名人主流社區位居高位,以當今社會潮文化、亞文化、年輕人為主的bilibili與小紅書居于中間層次,而貼吧、知乎等經典網絡社區處于逐漸衰弱或趨于穩定的狀態,這與近年來國內整體網絡社會的普及度增長形成了一定的對照。
值得注意的是,本文展示的歷年平均MAU源自于官方數據,其中為吸引投資等目的,不否定存在數據有虛高的可能。但對于大致的對照與趨勢,分析當下網絡社會的概況而言,其實影響不大。
此外,我們還對各社區性別比例進行分析:

從圖中可看出,貼吧與知乎用戶以男性居多,而微博與小紅書用戶以女性居多,抖音與bilibili男女性別比例無明顯差別(其差別主要體現在年齡分布上,抖音用戶的年齡分布均勻,而bilibili用戶多以10-18歲、18-24歲的青少年為主)。
聯系上圖,不難發現不同社區性別比例與平均月活可能存在一定關系,對此可以進行單因素方差分析。假設不同社區性別比例對于社區歷年平均月活無顯著差異,通過計算統計量的觀測值與概率p值,可以返回概率p值小于顯著性水平α的結果,拒絕原假設,得出不同社區性別比例與平均月活存在較強相關性,進一步可以說明,在一定程度上女性用戶對社區月活起到更強的促進作用。
而對于各社區的年齡分布狀況,沒有從官方數據中發掘到同類型結果,各社區的年齡劃分均不相同,故在此只進行大致說明:
抖音:年齡分布相對均勻,整體分層的用戶數呈稍微的隨年齡增大而減少。24以下、25-24歲、35-54歲的用戶數均超過2.4億,24以下超過4億,55歲以上也有5千萬以上。
微博:年齡分布多集中在青年成年人群。用戶以18-30歲為主,占到總體的70%以上。值得注意的是,16-17歲的用戶占比高于41歲以上占比。
Bilibili:年齡分布多集中在青少年。24歲以下占比60%以上。
知乎:年齡分布類似微博。20-30歲占比70%。其他年齡段分布較為平均。
貼吧:年齡分布也集中在青年成年人群。18歲以下占比僅有2.9%,為六大社區最低,18-34歲占比85%左右。
小紅書:年齡分布類同微博。18-35歲占比超70%,其中18-23歲用戶占比最高。
綜上所述,六大社區的年齡分布可大致分為三類:均勻分布(抖音)、青年成年為主(微博、知乎、貼吧、小紅書)、青少年為主(bilibili)。但注意,各社區青少年占比都明顯少于現有文獻分析狀況,且某些社區缺少18歲/16歲以下用戶數據,所以年齡分布的結果只進行大致分類,并只在分析社區屬性時進行一定參考。
(2)社區屬性分析
對于社區屬性的分析,本文主要參照已提取得到的社區屬性特征詞集:

依照各社區所提取的屬性特征詞集,結合上述已知的社區性別比例與年齡分布,可大致分析各社區的社區屬性:
抖音:能明顯發現抖音的屬性特征詞集與網絡社會的整體流行詞契合度最高,這其中存在部分以抖音為代表的短視頻網絡社區高熱度、高流量的原因。一定程度上,抖音等短視頻平臺的高熱度、高流量影響著整體網絡社會的語言習慣與輿論風氣走向。抖音特征詞多偏日常、生活與流行梗詞,這也體現著抖音的社區內容,高生活化、高日常也有短視頻碎片化的影響因素。其社區屬性可以概括為:碎片化、生活化、高輿論導向。
微博:與抖音不同,微博雖具有著稍遜抖音的高熱度,但其社區屬性特征詞集與網絡社會的整體流行詞契合度不高,微博對社區外的影響輸出相對較弱。其特征詞多屬于青少年偏女性群體,以青春、愛情、明星等流行文化契合度較高,這可能也與微博的營銷策略具有一定關系。對微博屬性的特征詞集分析,也證明了女性用戶對社區月活熱度在一定程度上起到更強的促進作用的觀點。其社區屬性可以概括為:明星化、女性化、青春氣息。
bilibili:B站的特征詞集的典型特征是具有很強的年輕一代的感覺,這也與B站自己的宣發保持高契合度,即致力表現年輕一代對B站的熱愛。B站的特征詞多屬于青少年群體,且相對微博更年輕化,造詞方面也多偏向縮略簡寫,特征詞的情感傾向相對積極輕松,體現著一種更新的青春活力。其社區屬性可以概括為:亞文化、新潮化、年輕一代。
知乎:知乎的特征詞集也具有極為明顯的特色,其可以大致概括為多問答咨詢,這也與知乎的社區結構密不可分。知乎特征詞幾乎都與“問答”脫不開關系,在其他社區的低頻詞如“評論區”、“如果”等在知乎中出現頻率極高,社區生態也多以問題的提問與回答以主要內容。其社區屬性可以概括為:內容化、知識化、問答模式。
貼吧:貼吧的特征詞與知乎都較偏向男性群體,體現著一定程度上男性群體比女性群體相對弱生活化、或者說對社區熱度的促進作用相對女性較弱。但區分于知乎的內容化,貼吧的特征詞集更偏向于情緒輸出。由貼吧的特征詞集可明顯看出,大多特征詞都多體現在重情緒化與矛盾摩擦。與當今網絡社會風氣進行對比,會發現當下網絡社會在疫情時期出現一種新興的抽象文化,這種網絡文化與貼吧文化風氣契合度很高。其社區屬性可以概括為:情緒化、攻擊性、抽象文化。
小紅書:小紅書的特征詞集與微博有一定的重合度,大體多偏向于女性群體。但與微博不同的是,小紅書的特征詞集雖也體現著生活、青春氣息,但比起微博的明星化則更偏向于普遍人群化,從兩社區特征詞“演唱會”、“抄作業”、“安利”等就能體現較為明顯的區別。小紅書的特征詞集體現著青少年女性群體一定的日常生活享受需要,但不可忽視的是,小紅書的特征詞集從另一方面也可以看出其的內容化、一定的知識分享屬性。其社區屬性可以概括為:精細化、時尚化、工具屬性。
綜上所述,可發現六大社區各自的主流屬性有一定差別,但也具有不同程度的相關性。但值得注意的是,上述分析是通過文本處理、詞頻分析得到的社區屬性特征詞集而來,客觀條件的驅動程度較強。故對于各社區具體屬性可能略失之偏頗,需要集合下一塊的問卷分析進行綜合研究。
(二)隨機人群問卷方面對于隨機問卷方面的分析,主要目的是獲取從人群角度進行的主觀研究。本文將所收集到的410份問卷回答制成圖表,分成選擇評分方面與可選則性回答方面進行分析。
選擇評分等可量化的數據方面,我們進行SPSS數據處理,其涉及的數據內容包括基本信息(性別、年齡),社區評價(使用時長、滿意度、打分),與網絡社會總評價。
首先我們進行性別比例與年齡分布的統計,以保證所得數據的普適性,不會失之偏頗。

問卷的性別比例接近1:1,年齡組成以10-24歲青少年占超過50%的部分。關于年齡組成是否類似正態分布,非參檢驗的S-W檢驗、K-S檢驗結果均說明其不符合正態分布,從直方圖中我們也可看出年齡組成主要以10至24歲青少年與25-40歲成年人居多。此結果也與各社區的基本年齡組成相近,可說明問卷具有一定程度的代表性。
在往下分析前,我們進行一個新變量“網絡社會的陷入程度”的定義,其主要用于分析網絡社區的整體使用與所需要分析因素如網絡社會評價的關系。其定義式為:網絡社會陷入程度=抖音時長+微博時長+bilibili時長+知乎時長+貼吧時長+小紅書時長。對于“陷入程度”,為更可觀進行統計分析,我們再對其按照陷入程度進行數據分組,分為六類不同組別,定義為“陷入程度新”。根據頻數分析,可知其均值為2.49、眾數為2、最小值與最大值分別為1和6,表示多數用戶對網絡社區的使用總定量數值可達到8-13。這個指標也可以表現出用戶對于網絡社區的依賴程度或稱粘性,表明多數網絡社會用戶對于社區忠實度較高,對于網絡社會具有較深的依賴性。
關于各個社區進行的具體分析,對各社區參數(社區評分)與網絡社會總參數(陷入程度、評分)進行分類匯總,得到各社區在問卷調查中的使用占比、作品質量、環境氛圍、總得分,以及各社區是否使用的人群的陷入程度與網絡社會滿意度,詳細數據如下:

從中可以分析出很多信息,在與社區屬性分析所聯系的方面而言:使用占比上,與熱度數據相差較大,通過配對樣本的t檢驗可證明其中存在強度不大的關聯性。微博熱度與抖音相當,但使用占比卻遠低于抖音,b站熱度相對抖音微博差距較大,但使用占比接近抖音,這些熱度與使用占比的關系可以一定程度證明各社區用戶的活躍程度或是活躍比例,也能體現出用戶對該社區的粘性,比如微博活躍用戶對于微博社區的粘性較高、而所占總用戶比例較低。
作品質量、環境氛圍、社區得分可以用來分析用戶對于社區的滿意度,在考慮到一定主觀因素的情況下也可以側面描述一個社區的內容與氛圍。根據圖表來看,六大社區的作品質量得分都要高于環境氛圍,這從一方面可以代表著當下后疫情時期的網絡社會總狀況——內容質量隨時代與生活發展逐步提升,而環境氛圍在各種近年的網絡文化與用戶素質的影響下逐漸改變。具體來看,其結果與社區屬性特征詞集相對契合,例如以精細化、工具屬性為特征的小紅書與以內容化、問答模式為特征的知乎作品質量偏高,而微博與貼吧的三項分數都為六社區最低,作品質量與總分6分以下,環境氛圍跌破5分,這與貼吧的情緒化、攻擊性與微博的明星化、炒作風氣或許分不開關系。值得注意的是,b站無論作品質量、環境氛圍還是總得分上都比以客觀條件為主分析出的分數要高、且遠遠高于其他社區,也是唯一一個有且三項都在7分以上的社區,這可能與b站和年輕一代的高契合度、亞文化潮文化的特征有關。
各社區使用與不使用的用戶對于網絡社會的環境評分也是一個很有趣的數據。使用抖音的用戶對于網絡社會的評分比不使用的用戶要高出10分,這其中的因素既可能有網絡社會整體與抖音社區有著較高契合性,即體現出抖音社區對整個網絡社會的高影響力與輿論導向,這與本文對抖音社區屬性的分析也形成對應,也可能有抖音社區用戶相對而言互聯網陷入程度較低的關系,與抖音社區的碎片化、生活化特征關聯較大。而使用知乎、貼吧、小紅書的用戶比不使用的用戶對于網絡社會的評分能低出5分左右,最為突出的是,貼吧使用用戶對于網絡社會整體評分比不使用用戶低出6.86。結合三個社區的使用占比與陷入程度,可表現出三個社區用戶對于網絡社會的高依賴性,以及三個社區都以網絡社會的一部分特征人群、團體為主。
關于可選擇性回答方面,整體網絡社會的評論詞云如圖所示:

可發現在完全匿名的問卷評論下高頻詞多為負面詞匯,這也體現著當下網絡社會的環境狀況。為分析社區環境數據、用戶陷入程度數據與用戶對社區的滿意度關系,可以進行多因素方差分析(SST = SSA + SSB +SSAB + SSE)。可得出,社區環境數據與用戶滿意度呈正相關,陷入程度與用戶滿意度呈負相關,即環境越好、陷入程度越低、對網絡社會滿意度越高,這在上表的抖音數據與貼吧數據上也具有明顯體現。但值得注意的是,環境數據與陷入程度的交叉參數SSAB對于SST的影響比任何一個單因素SSA/SSB都大,這也表現了環境糟糕和陷入程度對用戶的滿意度影響是相輔相成的。
五、結論綜述網絡社會是近年來國內學術界研究的一大熱點問題,其研究涉及了哲學、社會學、新聞學、傳播學、計算機科學、經濟學、管理學、教育學、情報學、統計學等多個領域,研究角度也呈現出多樣化的特點。其在分析單位的選擇上,也多采用個體與網絡兩個角度來研究,本文也采用這種方式。在本文的研究中,主要方面是以客觀條件為主的社區屬性特征詞分析與以問卷調查為主的隨機人群數據統計分析,兩個方面相輔相成,取得了很好的研究結果。
在當今后疫情時期的網絡社會中,網絡文化風氣逐漸異常、畸形,以領域內現有的定義而言就是熟人化與普泛化。網絡社會上因其完全匿名性而形成了與現實社會儼然不同的網絡道德,這也是當今網絡社會亂象叢生的源泉之一。在網絡社會上,各種侮辱稱呼、矛盾沖突、黨同伐異、輿論造謠更是屢見不鮮,對用戶形成著無形的影響甚至于是網絡暴力。當下后疫情時期的網絡社會,已經完全有了其獨屬于自己的社會屬性與風氣,這與現實社會的極大差異致使二者形成了可悲的后障壁,這或許也是盡管國家政府政策措施逐年開展,但卻不能對于網絡社會風氣造成較大改變的原因。
對于當今網絡社會現象的種種問題,匿名性或許是最根本的源頭之一,對應于在當今互聯網社會中令人聞虎色變的犯罪詞語——“開盒”,網絡社會就那樣被名為匿名性的黑布所遮蓋著,成為著無數人找到的一塊暗地里吐黑泥的環境。如同多數人群的實名制與整頓的呼聲一般,其關鍵還是需要國家與政府的加大力度管理,但以網絡社會的實際情況出發是最重要的,否則仍會被網絡與現實之間的厚障壁所阻礙著。
除此之外,網絡社會朝向穩中向好的改變,更需要網絡用戶的努力。這并非一朝一夕可以改變的,正所謂網絡社會中各種現象的原因也多來自于現實生活,多屬于現實生活吸收下排出的東西,這需要各方一起的共同努力。但僅說現在,對于個人而言,減少網絡社會的陷入程度是相對最優解;對于公司、團體、或像是高校組織而言,增加網絡社會的話語權和輿論導向的影響力也勢在必行,以盡力減弱網絡社會對現實社會或是物質權益的反噬影響。
六、不足之處與改進方向(1)對于社區屬性特征詞提取方面,僅僅使用文字云進行詞頻分析,視客觀條件情況仍具有較高的不穩定性與不可行性,可以進行用Jieba庫的代替,或是直接結合大模型與深度學習運用IF-IDF算法與TextRank算法,這樣進行的研究前景更為廣泛,也有更高的可行性與穩定性。
(2)對于問卷填寫對象的選擇方面,仍具有較強的隨機性與隨意性,可考慮改善問卷填寫的對象選取方式或是填寫問卷的形式。
(3)對于問卷數據分析方面,本文的分析主要圍繞整體的網絡社會狀況,并沒有進行詳細分析。若進一步分析六社區的各項評價,可以獲得更多有用且很具有參考性的信息。
七、結語在本次關于“后疫情時代的國內網絡社會情況”暑期調查研究中,團隊走訪了包括河南省、湖北省在內的多個省市,進行線下與專業人士交談;結合專業人士觀點,對抖音、微博、bilibili、知乎、貼吧、小紅書六大各具特點的代表性網絡社區進行研究;創造問卷填寫人群普適性強,從10歲以下至60歲以上普遍有所收集,填寫用戶也遍布國內各個省市;運用爬蟲技術、自然語言處理技術、數據統計等多種方式客觀與主觀結合的進行研究。團隊成員既學到了技術知識,也增加了社會閱歷與實踐經歷,這對于每一個團隊成員都意義非凡,本文最終所有分析結論也會進行發布,結合現實情況,與公司相關人員進行說明,并開展線下入校園講座,積極將暑期研究結果輸出出去。
八、參考文獻
- 丁然.基于Python爬蟲技術的高校網絡輿情數據分析研究——以“安徽審計職業學院百度貼吧”為例[J].現代信息科技,2023,7(05):106-108+112.DOI:10.19850/j.cnki.2096-4706.2023.05.025.
- 曹丹陽,趙俊生,李盡輝等.基于Jieba分詞的青城旅游景點本體構建研究與應用[J].內蒙古工業大學學報(自然科學版),2021,40(03):218-225.DOI:10.13785/j.cnki.nmggydxxbzrkxb.2021.03.009.
- 何梓源. 基于詞頻詞義的彈幕關鍵詞提取與類別標注研究[D].北京信息科技大學,2023.DOI:10.26966/d.cnki.gbjjc.2022.000039.
- 賈二鵬,陳建新.國內外虛擬社區研究[J].新世紀圖書館,2011(12):32-36.DOI:10.16810/j.cnki.1672-514x.2011.12.009.
- 孟韜,王維.社會網絡視角下的虛擬社區研究綜述[J].情報科學,2017,35(03):171-176.DOI:10.13833/j.cnki.is.2017.03.030.