<<竞争情报
微博客用户行为特征与关系特征实证分析
)))以/新浪微博0为例
王晓光
华东师范大学信息学系 上海200241 连云港师范高等专科学校计算机系 连云港222006
1摘要2微博客是继博客之后迅速发展起来的一种新的社交网络平台。以/新浪微博0为研究样本,较为系统地研究微博客的基本结构、信息传播一般模式,考察微博客用户基本行为特征和关系特征,分析微博客影响力的相关变量,并建立影响力回归方程。1关键词2微博客 影响力 信息传播1分类号2G350
EmpiricalAnalysisonBehaviorCharacteristicsandRelationCharacteristicsofMicro-blogUsers)))Take/SinaMicro-blog0forExampleWangXiaoguang
DepartmentofInformationScience,EastChinaNormalUniversity,Shanghai200241DepartmentofComputer,LianyungangTeacher.sCollege,Lianyungang222006
1Abstract2Micro-blogisanewsocialnetworkplatformwhichhasdevelopedrapidlyafterblog.BasedonthestudyofSinamicro-blog,thispaperanalyzesthebasicstructureaswellasthegeneralmodelofinformationtransmissionofmicro-blogsystematically.Bystudyingthebehaviorcharacteristicsandrelationcharacteristicsofmicro-blogusersandanalyzingtherelevantvariablesoftheinfluencesofm-icro-blog,itbuildstheregressionequationofinfluence.1Keywords2micro-blog
influence
informationtransmission
1 引 言
微博客是博客的一种变体,在维基百科中被描述为/一种允许用户及时更新简短文本并公开发布的博客形式,允许任何人阅读或者只能由用户选择的群组阅读。用户可通过即时通讯工具、网页等终端发布、更新博文0。博客虽已成为一种有效的信息沟通与交流方式,但依然具有进入门槛,而微博客则将门槛降到最低
[1]
2 微博客网站的运行机制
2.1 跟随机制
用户之间的沟通交流基于一种/关注与被关注0的跟随机制,即用户可随时/关注0他人,成为他人的/粉丝0,其他用户也可/关注0自己,成为自己的/粉丝0,此过程为双向可逆过程。跟随机制使得用户以最简单的方式订阅信息、广播信息,形成一个个大小不一的传播节点。如图1所示:
。
本文首先分析微博客的运行机制,再以/新浪微博0作为研究对象,提取数据样本,应用社会科学统计软件、表格处理软件和文本自动分类方法,挖掘/新浪微博0中用户行为特征;最后应用社会科学统计软件对表征用户关系的参数进行相关与回归分析,揭露/新浪微博0中用户关系的一般规律。
图1 跟随机制示意
2.2 信息传播机制
用户信息在发布的同时会被传送到跟随用户的接收终端(PC、PDA、手机等),跟随者接收后可及时作出
收稿日期:2010-01-27 修回日期:2010-03-26 本文起止页码:66-70 本文责任编辑:王善军
66 #LIBRARYANDINFORMATIONSERVICE#
第54卷第14期 2010年7月
评论,也可选择将消息继续转发出去,让更多的用户得以分享。在信息传播过程中,信源与信宿之间是一种/后背对前脸0的信息流动,可以一点对一点,也可以一点对多点,信息像广播一样同时传递给所有跟随者。
>>
3 数据获取与预处理
本文研究样本来自/新浪微博0的/随便看看0板块。/新浪微博0是由新浪公司开发的一款国内主流的微博产品,作为样本具有一定代表性。从2009年11月30日至2009年12月30日,在每天的19点至21点时段,随机选取该板块100条微博内容。对每条微博内容的处理过程为:提取发布者、发博途径、博文内容、博文转发数、博文评论数五项数据,再通过/发布者0链接至其个人主页,提取个人的关注数、粉丝数、博文数三项数据,上述八项数据组成一条记录。最终得到3000条记录作为样本,将样本记录保存为Excel文件。
图2 发博途径发布
加拿大社会化媒体分析公司SysomosInc对Twitter网站的调查,有超过一半(55%)的Twitter用户使用工具而不是通过Twitter.com发布信息;Twitter网站创立时间较早,拥有大量客户端插件,用户发博方式多种多样
[2]
。
4.3 博文长度分析
由于含链博文是由一个超链地址及少量说明性文字组成,进行博文长度分析的意义不大,因此将含链博文暂时剔除,对剩余的2622条博文进行长度分析。新浪微博规定每条博文最长不超过140个中文字长,每个汉字或中文标点符号为一个字长,每两个数字、字母或英文标点符号为一个字长。以此为标准,利用Ex-cel文本统计函数计算每条博文长度;博文如包含英文单词或数字,以手工方式处理,一个单词或一组数字计一个字长。结果如图3所示:
4 用户行为特征分析
4.1 转发与评论行为分析
所有记录对应的3000条博文,有1176条被转发,1660条被评论,分别占总数的39.20%和55.33%。有些博文包含一个链接地址,指向新的页面,本文称之为含链博文。在含链博文中,被转发和评论的比例分别为37.30%和53.17%;剩余的不含链接博文,对应比例分别为39.47%和55.64%。如表1所示:
表1 博文被转发和评论情况
类型数量被转发数比例被评论数比例
含链博文37814137.30%20153.17%
不含链博文
2622103539.47%145955.64%
博文3000117639.20%166055.33%
图3 博文长度分布
上述数据说明不管是否添加链接地址,不管是可直接阅读的博文还是需要打开链接再阅读的博文,被转发率和被评论率基本持平。
可以看出,包含10-20个字的博文所占比例最高。随着博文包含字数的增加,相应的博文数量逐渐减少,说明微博内容短小精致的特性迎合了大部分用户的需求。多数人发布微博内容远远低于140个字的最高限定。值得注意的是,也有一定数量的微博由140个字组成,表明其用户希望尽可能详细地进行自我表达;如果超出字数限定,他们可能发布含链博文。
4.2 发博途径分析
超过80%的用户通过新浪网页发布博文,通过手机网页和手机短信发布的用户分别占到11%和7%,另有少量用户借助手机彩信更新内容(见图2)。 大部分用户习惯使用较传统的微博网站发布博文,其比例与国外微博网站(如Twitter)差别较大。据
4.4 发博数量分析
约2100人(占样本总数的70%)已发博文数集中
67
<<竞争情报
在200篇以内,约300人(占样本总数的10%)已发博文数在200到400篇之间。随着微博数量区间不断增大,对应的发博人数不断减小,整体呈现出比较明显的幂律特征。如图4所示:
注热点地区问题,从目前的信息中无法推测,需要结合其他方法加以验证,这也是今后需进一步探索的内容。¼/李宇春0、/哥本哈根0、/小沈阳0等词语的出现,表明可以借助微博客适度挖掘一段时间内的热点词汇或热点问题。
5 用户关系特征分析
由于/博文转发数0、/博文评论数0、/关注数0、/粉丝数0、/博文数0等数据项不满足正态分布,本文应用Spearman相关系数对上述数据项进行相关性分析及回归分析。Spearman相关系数计算公式如下:
图4 发博数量分布
n
4.5 博文内容分析
提取样本中的博文内容生成词频统计分析样本,采用武汉大学ROSTWordParser中文分词系统进行切词及词频分析。样本总长度为284988字,切词后得到74304个词语,删去没有实质意义或专指度很低的关键词及其频次,比如/是的0(1181次)、/多少0(105次)、/没有0(160次)、/还是0(118次)、/什么0(140次)等,将剩下关键词的频数阀值设定在20次,将每个词的频次记在表的同一行上
[3]
rs=1-
6E(Ri-Qi)2
i=1
n(n-1)
2
其中Ri表示xi在(x1,x2,...xn)中的秩,Qi表示yi在(y1,y2,...yn)中的秩。
5.1 样本二次处理
/新浪微博0的商业运作注重名人效应,用户中不乏各界名人,有些名人所发博文甚少,仅靠名人效应能吸引大量粉丝(如著名主持人何炅,博文数为1,粉丝数为17615),此类记录易对统计分析结果造成干扰。现将包含/名人认证0标识的记录删除,得到新的样本,共2102条记录。
,如表2所示:
词频5150434335333232322826
关键词台湾社会天气今年事情明年机场李宇春演唱会哥本哈根小沈阳
词频2626262623232222202020
表2 微博内容词频统计
关键词自己大家我们今天快乐现在中国平安朋友微博北京
词频2832402331891551521481311219491
关键词词频觉得分享他们生活工作看到你们昨天最近新浪电影
8280777671716862605857
关键词世界上海美国围脖博文博客市场成功同事相信广州
5.2 相关分析
相关分析是一种基于假设检验的统计分析方法,相关系数表明两变量之间的相关程度。一般情况下,相关系数绝对值\\0.8时,视为高度相关;0.5[相关系数绝对值<0.8,视为中度相关;0.3[相关系数绝对值<0.5,视为低度相关。显著性水平反映拒绝某一原假设时所犯错误的可能性。以下检验均设置显著性水平为0.01,即在原假设事实上正确的情况下,研究者接受这一假设的可能性为99%
[4-5]
。
本文采用社会科学统计软件SPSS,导入Excel文件中的样本记录,将/博文转发数0、/博文评论数0、/关注数0、/粉丝数0、/博文数0作为分析变量。由于/博文转发数0与/博文评论数0为某篇博文的属性特征,/关注数0、/粉丝数0、/博文数0为某用户的属性特征,因此将上述五变量分两组进行相关分析。对变量做散点图,初步判断有相关关系,再分组进行两两相关分析,分析结果见表3、表4。
原假设为/相关系数为零0,经计算,统计量的相伴概率为0.000,低于0.01,因此可认定/相关系数为
结果分析:¹/今天0、/现在0、/昨天0、/最近0、/今年0、明年等词语突出时间概念,这与微博客注重随时沟通与分享的核心价值、注重信息传递过程中的时效性等特征相吻合。º/自己0、/大家0、/我们0、/你们0排序靠前,表明发布者倾向于以第一人称、口语化、较随意的形式进行自我表述。»/中国0、/北京0、/世界0、/上海0、/美国0、/广州0、/台湾0等词语反映的是一些热点城市或国际热点地区。也许因为大量用户来自北京、上海等发达地区,也许是用户更多关 68 #LIBRARYANDINFORMATIONSERVICE#
第54卷第14期 2010年7月
表3 博文转发数与博文评论数Spearman相关系数
相关系数类别
变量
参数类别
相关系数
转发数相伴概率
数量相伴概率
评论数相关系数
数量
转发数
1.000.2101.501(**)
.000
2101
评论数.501(**)
.00021011.000
.2101
控制变量
>>
表5 偏相关分析结果
变量
参数类别
粉丝数1.000
.0.494.0002099
博文数.494.00020991.000.0
相关系数
粉丝数相伴概率
关注数
自由度相关系数
博文数相伴概率
自由度
Spearan.s
有较大的影响。
表4 关注数、粉丝数、博文数两两相关系数
相关系数类别变量
参数类别
相关系数
关注数相伴概率
数量相关系数
Spearan.s粉丝数相伴概率
数量相关系数
博文数相伴概率
数量
关注数1.000.2101.723(**).0002101.613(**).0002101
粉丝数.723(**).00021011.000.2101.833(**).002101
博文数.613(**).0002101.833(**).0021011.000.2101
5.3 回归分析
回归分析是通过提供变量之间的经验公式定量描
述变量间相关关系的数学过程。不仅可以利用概率统计知识对经验公式的有效性进行判定,还可以根据自变量的取值预测因变量的取值。粉丝数量是衡量一个普通用户在微博客中影响力的重要因素。设粉丝数为因变量Y,关注数为自变量X1,博文数为自变量X2,回归分析过程如表6所示:调整后决定系数为0.747,t检验的相伴概率为0.000,具有显著统计学意义。
表6 拟合度检验及方差分析
最终模型拟合优度检验
模型1
R值.864a
R值平方.747
调整后R值平方
.747方差分析
模型1
回归
剩余总数
离差平方和自由度8746506295674711703253
220992101
均方4373252.8241408.646
F值
相伴
概率
标准估计误差.37.542
零0的可能性很低。表3所示转发数与评论数的Spearman相关系数为0.501,即博文的转发数和评论数之间存在中度相关关系。此分析表明,如果跟随者发现一篇有价值的博文,在选择转发的同时也很有可能评论一下博文内容,而且一篇博文被转发的次数越多,则被评论的次数也越多。
表4中,关注数与粉丝数相关系数为0.723,相伴概率为0.000,正相关性为高度显著,表明一般情况下用户关注别人越多,就越容易引起别人的关注,使得自己的粉丝数增加;而随着粉丝数量的增长,自己也会更多地去了解自己的粉丝并关注自己的粉丝。关注数与博文数相关系数为0.613,相伴概率为0.000,正相关性为高度显著,表明用户关注别人的兴趣与写博文的兴趣成正比。粉丝数与博文数相关系数为0.833,相伴概率为0.000,表现出高度正相关性,表明随着发布博文数的增加,用户会吸引越来越多的粉丝关注自己,而伴随着粉丝数量的增加,用户写博文的欲望也会随之提高。正如SysomosInc公司对Twitter的调查所显示的:随着追随者人数越来越多,Twitter用户发Tweet的次数也更加频繁
[2]
3104.580.000a
回归分析结果如表7所示:
表7 回归分析结果
系数
非标准系数
模型
B值
1
(常数)
关注数博文数
1.084.678.087
标准误差1.002.014.033
标准系数Beta值
t值
相伴概率
.628.337
1.082.27947.276.00025.325.000
粉丝数与关注数、博文数的拟合结果为:Y=0.678X1+0.087X2+1.084,其中关注数和博文数的系数相伴概率均为0.000,有显著的统计学意义。 为检验上述拟合结果,做标准化残差直方图(见图5)。
残差符合正态分布,表明此回归模型是合适的。
。
为研究关注数对粉丝数、博文数之间相关关系的影响程度,进行偏相关分析。设置粉丝数与博文数为偏相关分析变量,关注数为偏相关分析控制变量,进行双侧检验,偏相关分析结果如表5所示:
粉丝数与博文数的偏相关系数为0.494,其相伴概率为0.000。对比粉丝数与博文数普通相关系数0.833,可得关注数对于粉丝数和博文数的正相关关系
6 结 语
从本研究中可以看到,微博客网站入门门槛低、使
69
<<竞争情报
使得/新浪微博0在用户体验方式多样性方面尚有欠缺。事实上,/新浪微博0正在不断完善这方面的设置,陆续推出新的插件和挂件,同时加大宣传力度,让更多用户掌握工具的使用方法。
本研究较为系统地考察了/新浪微博0的基本结构、用户行为和关系的一般规律,对于促进微博客网站功能的完善及对信息资源的挖掘与利用,促进社会化
图5 标准化残差直方图
网络媒体营销的发展均具有一定的现实意义
[6]
。在研
究方法上,由于本研究只是一定时间段内微博客内容
用随意、方便快捷、注重时效、注重沟通与分享,这些特性迎合了用户的需求;超过10%的博文为含链博文以及一定数量的包含140个字的博文,表明将内容压缩在140个字以内并不能满足所有用户的需求,他们正在或者将要借助链接将跟随者引入博客、论坛或其他页面,因此微博客需要同博客、论坛等其他信息组织形式紧密结合,不断发掘信息资源的组织与利用方式,不断提高自身的生存能力;表征博文特征的转发数、评论数之间具有中度相关性,表征用户关系特征的关注数、粉丝数、博文数之间均具有高度正相关性,符合常规意义上人际交往的特性,体现出微博客在人际交往上的促进性,同时也为依托微博客网站进行社会化网络媒体经营提供了一定的借鉴,即尽量增加博文的被转发数,吸引更多人的评论与关注。积极地关注别人,保持较高的发文数量,就可以吸引更多的粉丝,获得更高的关注度,使得社会化网络媒体营销更加有效。从另一个角度看,超过八成的用户均通过网站入口发布博文,
1作者简介2王晓光,男,1980年生,讲师,硕士研究生,发表论文3篇。(上接第49页)
[26]周晓华.知识管理在项目管理中的应用研究//中国系统工程学
会第十四届学术年会,2006:262-268.
[27]仇元福,潘旭伟,顾新建.项日管理中的知识集成方法和系统.
科学学与科学技术管理,2002(8):36-39.
[28]王娟茹,赵嵩正,杨瑾.面向项目管理的知识集成模型和机制.
科学学与科学技术管理,2004(1):81-84.
[29]LeseureMJ,BrookesNJ.Knowledgemanagementbenchmarksfor
projectmanagement.(8):103.
[30]兰敏.面向项目和岗位建立与优化建设项目知识库.建筑管理
JournalofKnowledgeManagement,
2004
现代化.2006(3):1-4.
[31]党新明.基于项目环境的知识管理应用.中外企业家,2007
(8):43-46.
[32]于本海,张金隆,刘玉青,等.IT项目知识管理模型与支持系统
研究.图书情报工作,2008,52(8):93-96.
[33]应晓磊,强茂山.我国工程建设项目多项目知识管理要素分析.
工业技术经济,2006(10):53-58.
[34]王彦忠.项目环境下的知识管理.经济论坛,2006(5):67-69.[35]李蕾.项目环境下知识管理绩效评价研究.科技进步与对策,
2005(6):39-40.
的数据统计,并不能全面反映用户行为、用户关系和用户活跃程度,相关结论需要后续研究进一步论证。
参考文献:
[1]李华,赵文伟.微博客:图书馆的下一个网络新贵工具.图书与
情报,2009(4):78-82.
[2]新浪科技.加拿大媒体分析机构剖析Twitter.[2009-12-20].
http://tech.sina.com.cn/i/2009-06-12/16233175010_2.sh-tm.l
[3]汤建民.国内高等教育研究现状和发展动向的计量分析)))基
于12种高等教育研究核心期刊所发表的4800多篇论文题名的词频统计.现代大学教育,2007(5):45-50.
[4]姚长青,乔晓东.基于NSTL原文索取数量的空间自相关性分
析.情报科学,2009(10):1501-1507.
[5]丁楠,潘有能.h指数和g指数评价实证研究)))基于CSSCI
的统计分析.图书与情报,2008(2):79-82.
[6]袁毅,刘蓓,杨成明.网络参考文献著录质量及可追溯性研究.
情报学报,2010(2):276-284.
1作者简介2贺 军,女,1974年生,副教授,博士,发表论文20余篇。
70 #LIBRARYANDINFORMATIONSERVICE#
因篇幅问题不能全部显示,请点此查看更多更全内容