Analysis of Film Data Based on Python 徐勤亚* 蔡继鹏 王 星 XU Qin-ya CAI Ji-peng WANG Xing 摘 要 随着大数据时代的日益发展,数据的获取与分析成为热点,基于Python的爬虫技术是目前数据分析工
作中使用的最为广泛工具之一。本文应用Python爬虫关键技术对猫眼电影网的影片榜单及热映电影进行数据获取,并基于Python的开发环境Spyder进行数据分析,使用Numpy系统存储和处理大型数据,中文Jieba分词工具进行爬取数据的分词文本处理,Snownlp库处理文本的情感,最终通过词云图、网页动态图展示观众情感倾向和影片评分统计等信息,为用户观影提供决策支持。
关键词 数据分析;爬虫;Python;可视化
Abstract With the development of the era of big data, data acquisition and analysis have become a hot topic. Python-based crawler technology is one of the most widely used tools in data analysis. In this paper, the key technology of Python crawler is applied to obtain the movie list and hot movies of Cat's Eye Film Network. The data is analyzed based on Spyder, the development environment of Python. Large data is stored and processed by Numpy system. Chinese Jieba word segmentation tool is used to process word segmentation text of crawling data. Snownlp library is used to process text. Affection, finally through the word cloud map, web dynamic map to show the audience's emotional inclination and film score statistics and other information, to provide decision-making support for users to watch movies. Key words data analysis; crawler; Python; visualization
doi:10.3969/j.issn.1672-9528.2019.08.035
1 引言
随着经济社会的快速发展,电影作为精神文化产品,得到越来越多人的青睐,但是在海量的资源中如何尽快找到符合个人品味的电影,成为观众新的问题。基于Python的数据爬虫技术是目前使用最广泛的方法之一,它能够以最快捷的方式展示用户体验数据,帮助观众进行影片选择。猫眼电影是著名的电影开放平台,研究者可以通过猫眼电影提供的开放接口大规模地获取电影相关数据。本文编写爬虫程序抓取了2019年上映的影片的国内票房榜、热映口碑榜等榜单信息,并以热映电影《千与千寻》为例,爬取电影的短评、评分、评价数量等数据,并结合Python的多个库,对电影数据进行多维度的分析最终通过可视化图形清晰展示,为观众提供观影决策支持。
2 基于Python的电影数据获取2.1影片排行榜获取技术
对于影片排行榜获取主要是对热映口碑榜、最受期待榜、
国内票房榜、北美票房榜和TOP100榜数据的获取,这部分主要用到re模块和requests HTTP客户端库。用浏览器登录到猫眼电影页面,查看页面的html主体数据,分析页面html结构,利用正则表达式将URL信息提取出来,即可对数据进行下一步采集。关键代码如下:
def getOnePage(url):
response = requests.get(url, headers=header) if response.status_code == 200:
allTop = re.findall(‘
return allTop,response.text2.2影片数据获取技术
影片数据的获取主要用到requestsHTTP客户端库、json包、random库、csv函数包、datatime模块、re模块。re模块和requests库、random库主要用于爬取数据,json包用于将获取数据格式转换为json格式,datatime模块主要用于获取用户评论时间,csv函数包用于存储数据。使用Us-er-agent代理机制表示请求者的信息,可以搜集User-agent
* 安徽财经大学 安徽蚌埠 233030
2019年第8期113计算机应用技术信息技术与信息化并保存,爬取过程中动态更换User-agent,防止因数据的频繁获取而被终止。
本文根据热映口碑榜选取电影《千与千寻》进行分析,最终使用Python爬虫技术获得13318条记录进行可视化处理。
3 基于Python的影片数据可视化分析3.1 情感分析与词云生成
SnowNLP是Python的一个类库,可以方便的处理中文文本内容,调用sentiment下的分类方法,对于评论的情感倾向进行评分,0-1之间,越正面的情感倾向对应的分值越高,如图1所示,可以发现电影《千与千寻》的用户观影评论中,多为正面倾向词语,说明电影受到较多好评。
图1情感分析效果图
图2情感分析词云图
使用基于词典的情感分析方法,通过情感词典和规则,对文本进行拆借、分析,对情感词、程度词、否定词、配对词、感叹词进行遍历,计算情感值,最后通过情感值来作为文本的情感倾向依据。具体的操作流程为“文本预处理、文本分词--精确模式分词、自定义常见去除词库、去除单个词、对分词做词频统计、获取前100最高频的词、读取积极与消极词库、统计积极词语与消极词语、绘制词云”,得到词云
1142019年第8期图如图2所示,可以通过词云图发现,观众对于影片整体感受是好看与经典,同时可以发现国内观看最多的城市是北京、广州、深圳和上海等。3.2电影评星分析
导入Pyecharts库中的Pie组件,用于生成饼图,Pan-das纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,利用Pandas对电影评分进行分组求和,得出占比,最后以网页动态图的形式展示,如图3所示。
图3评星比例图
根据html结构捕获三个信息:每账号的评分等级为;每个账号的评论留言;跳转到下个评论页面的http链接。获取所有的信息后对信息进行处理,计算出每个星级的总数和一共多少账户进行了评级,通过结果可以发现78.97%的观众都为五星好评,电影的整体评价较高,值得推荐。评星分析
的关键代码如下:
import pandas as pd
from pyecharts import Pie # 导入Pie组件,用于生成饼图
# pandas
df = pd.read_csv(“D:comments.txt”,encod-ing=’gb18030’, names=[“id”, “nickName”, “user-Level”, “cityName”, “content”, “score”, “startTime”])
attr = [“一星”, “二星”, “三星”, “四星”, “五星”]
score = df.groupby(“score”).size() # 分组求和value = [
score.iloc[0] + score.iloc[1] + score.iloc[1],
score.iloc[3] + score.iloc[4], score.iloc[5] + score.iloc[6], score.iloc[7] + score.iloc[8], score.iloc[9] + score.iloc[10],]
pie = Pie(‘《千与千寻》评星比例’, title_pos=’left’, width=600)
pie.use_theme(“dark”)
信息技术与信息化计算机应用技术网页设计在平面设计中的应用
刘启明* LIU Qi-ming 摘 要 鉴于中国社会经济的持续发展,科学技术随之而得到持续健全完善。如今,网络在现代人的生产和生活
中已经不可缺少,彻底改变了社会大众的生活与生产方式。有鉴于此,在平面设计过程中,网页设计变得愈加重要起来了。本文在界定相关概念的基础上,分析了网页设计与平面设计之间的关系,阐述了各种类型网页设计在平面设计中的应用方式,并提出了网页设计应用于平面设计的注意事项。
关键词 网页设计;平面设计;应用
doi:10.3969/j.issn.1672-9528.2019.08.036
平面设计在互联网大潮下应运而生,不仅是生活表达方式,而且还是一种艺术表现形式。在平面设计中融入网页设计,不但能运用色彩形成突出的的视觉效果,而且还能传递出预期内容。近些年来,愈来愈多的研究者对网页设计如何应用于平面设计实施了深入分析,也获得了相当多的成果,本文试对网页设计应用于平面设计的形式加以探讨。
1 相关概念界定
所谓网页设计,主要是指运用标识语言,采取各种可行的设计方法和执行过程,将电子信息运用网络加以传递,最后展示于现代人面前的则是用图形用户方式被加以浏览。简而言之,设计网页之目的在于建立网站,而网站之上面的各类简单信息,如文字、图片或表格等,均可放置于网页中供上网者查阅相关资料。
所谓平面设计,主要是指现代人用先进的网络技术来表
* 苏州工业园区职业技术学院 江苏苏州 215123
达思想与行为的方式之一,并运用互联网中的文字或视、听
pie.add(“评分”, attr, value, center=[40,
[2]宋智雯,李昌清,施新凯.基于人工智能的就业平台数据采集与分析[J].无线互联科技,2019,16(01):134-135.
[3]苏国新,苏聿.基于Python的可配置网络爬虫[J].宁德师范学院学报(自然科学版),2018,30(04):364-368.
[4]王英杰.基于Python的微博数据爬虫程序设计研究[J].信息与电脑(理论版),2018(23):93-94.
[5]逄菲.基于Python的分布式网络爬虫系统的设计与实现[J].电子技术与软件工程,2018(23):6.
[6]胡非,韩永辉,许超,周巧妮.基于Python的可视化工具研究与应用[J].工程技术研究,2018(13):25-26.
[7]沈漪,华敏敏.基于Python正则表达式的彩票信息爬取[J].安徽电子信息职业技术学院学报,2018,17(05):19-21.
[8]曾晓娟.基于Python爬虫技术的应用[J].办公自动化,2018,23(20):62-64.【作者简介】
50], radius=[25, 75], rosetype=’raea’, is_legend_show=True, is_label_show=True)
pie.render(‘评星.html’)4 结束语
本文利用Python爬虫技术结合Python库对猫眼电影网站的影片信息进行数据分析,对散乱的影片数据进行清洗、分析,并使用词云、图表等进行可视化展现,实现数据自我解释。对用户评价数据进行多维度、多层次的聚焦,发现数据的规律和特征,使其对观众观影行为具有参考价值。下一步,将对程序做进一步拓展,使之开发为一个完整的影片评价可视化系统,配备用户界面进行流畅操作。同时,将重点针对流动性的动态数据爬取,使之实现多种数据的获取及评价,未来在舆情分析方面可以发挥更大作用。
参考文献
[1]仇明.基于Python的图片爬虫程序设计[J].工业技术与职业教育,2019,17(01):1-3.
徐勤亚(1998-),女,安徽合肥人,安徽财经大学管理科学与工程学院,本科生,研究方向:信息管理与信息系统。
(收稿日期:2019-07-06)
2019年第8期115
因篇幅问题不能全部显示,请点此查看更多更全内容