python案例分析:基于新能源汽车论坛评价数据情感分析的客户满意度研究,文本挖掘包括lda主题分析和词频分析、情感分析、网络语义分析
越来越多的消费者将新能源汽车(NEV)选作一种绿色、环保、节能的交通方式,近年来尤其是在中国市场呈现爆发式增长,比亚迪、特斯拉、蔚来、华为、小米等新能源汽车品牌应运而生,随着市场的逐渐成熟,激烈的市场竞争环境,不断增长和细分的消费群体,对于NEV品牌而言,了解及改善消费者满意度是一个迫切需要解决的问题。
顾客满意度是指顾客对产品或服务的综合满意程度,电动汽车顾客的满意度除了受产品本身的性能影响之外,也受电动汽车售后服务、品牌、智能功能等方面的影响,消费者的真实需求往往体现在各种媒体上的意见表达和对品牌的反映。因此,如何从海量的非结构化文本中挖掘有用信息,进一步分析背后隐藏的潜在情感因素是十分有必要的。
传统用户满意度通过问卷、电话等方式调研,不仅费用高,而且样本数量有限,代表性不足,无法真正反映大多数消费者的反馈。随着新媒体尤其是网络媒体的发展,越来越多的人会在论坛、评论等社区上传对产品的评价,其反映的是大众的主观情感信息,能为企业提供一个低成本、高效率的调研渠道和手段。基于网络用户对产品或服务的评价信息进行用户满意度的分析研究成为一种比较流行、高效的研究手段。
本文以数据挖掘的方法,依据不同品牌电动车车主在专业论坛中的评价数据对未来用户满意度进行预估分析,从而对蔚来汽车、华为汽车、小米汽车的用户满意度进行分析,为增强新能源汽车行业整体发展奠定基础。传统用户满意度分析会存在受调查人群局限、难以用大范围的样本说明实际情况的问题,借助Python爬虫将大数据抓取功能对海量用户评价内容进行抓取,为数据分析提供保障。
snownlp文本情感分析工具、jieba分词工具可以将中文文本数据准确地进行情感分析,归类为好、坏情绪,LDA模型可以深入洞察消费者对于品牌的关注话题,显露各家品牌在用户头脑中的核心优势和劣势。
本文从消费者满意度角度出发对产品和服务的综合评价,依托蔚来、华为以及小米品牌的评价数据,结果可分析得出3个品牌在产品性能、服务、智能化功能等方面消费者满意程度及不足,从而给3个品牌提供产品和服务改进的数据;此外也为新能源汽车行业营销及战略决策提供了一定参考,同时进一步体现出数据挖掘技术与自然语言技术在客户满意度评价方向的应用,促进数据科学在汽车行业进一步发展。
新能源汽车(NEV)产业蓬勃兴起,客户满意度已发展成为衡量企业竞争力的最主要因素之一。如何运用数据挖掘的方法对客户评价的信息进行分析并准确预测客户满意度,成为学术界以及业界共同关注的研究热点。专业论坛或网络口碑网站的消费者评价信息以及回馈信息等是当前很丰富的数据资料,学者们通过对这些评价信息的挖掘,提出提高客户满意度的实现途径。本文通过对相关文献进行分类研究当前研究现状,尤其是如何利用技术和方法体系对新能源汽车客户满意度进行预判。
张雅鸽(2025)[2]从消费者需求的角度探讨比亚迪新能源汽车的营销困境,并给出借助大数据挖掘消费者真实需求的对策,通过竞争、消费者的需求和用车成本的具体情况分析了应该加强消费者在线交流和强化营销宣传力度。研究主要从数据挖掘和大数据分析技术入手,考虑通过挖掘消费者的真实需求提升新能源汽车在市场上的影响力,为解决比亚迪新能源汽车营销困境提供了应该如何借助大数据优化新能源汽车市场营销的思路,但是其研究并没有从客户在线评价数据如何预测客户满意程度出发,详细论述了如何借助数据挖掘技术从顾客的角度研究情感分析和情绪识别的方法对消费者评价数据进行具体分析。
马家骥(2025)[3]使用基于BERT模型的方面级情感分析方法对客户满意进行评价。对京东平台3个品牌的用户评论进行情感分析,首先采用LDA主题模型确定用户评价的主题,利用CCSI模型,确定影响客户满意程度的因素包括产品质量、用户体验、价格、服务和品牌。通过BERT-Bi-LSTM-CRF模型进行实体的识别,评价各个品牌在各个维度上的客户满意程度。利用BERT技术具有前瞻性且在情感分析上具有独特优势。他既使用传统的客户端评价的方法,又对客户端评价的情感分析模型的精确度进行了提升,能够发掘出更加细节化的客户反馈信息。此外,他在模型里使用了BERT+LSTM的情感分析模型,在情感分析在客户满意预测时的应用上有着很大的发展前景。同时他的研究主要针对电子商务平台的数据进行分析,尽管为新能源汽车行业提供了新的想法,但是在对客户的满意度研究时缺乏对新能源汽车行业特有的客户需求和满意度模型。
刘欣(2025年)[4]对平安财险B分部客户理赔满意率作了深入细致的研究,同时建立一个理赔客户满意度度测度模型,通过对问卷调查、数据调查进行大数据研究,刘欣找到了影响客户理赔满意度的因素,分别是客户期望、感知价值、客户满意度与客户忠诚度。通过建立客户满意度测评体系结合国外相关研究与国内对满意度的相关理论研究证明该模型具有科学的合理性,通过建立客户满意度测评模型达到量化理解客户期望与客户体验。与其他研究相比,刘欣研究中将视角侧重于理赔服务领域,在为客户服务这一系统中更为适用,同时在深入研究中侧重实践性与实际应用性。此研究更多的是为企业指出较为具体的方向,但是对如何从论坛中的评价数据挖掘来增加其客户满意度的精确度未能予以深入说明,尤其是在新能源汽车产业中更具重要性[5]。
李子茹(2025)[6]研究分析在线评价平台管理反馈对顾客满意度的作用影响,主要研究管理反馈对满意度的影响情况,包括管理反馈回复的时机、快慢、语态、长度对其顾客满意度的影响。李子茹运用了面板数据回归模型研究了酒店管理的反馈方式对其顾客再次满意的影响。李子茹的研究工作论证了积极的服务性补救和有效的管理反馈能够提升客户的满意度,为在线评价平台上顾客的满意分析提供理论依据,同时也提供了在线平台上管理的反馈措施。其思路可以借鉴与应用在新能源汽车上,针对在线评价数据的情感分析和满意度预测在新能源汽车售后服务方面,研究如何进行客户满意的线上平台反馈,积极塑造客户对企业的忠诚,但其研究更侧重于服务质量上管理反馈的有效性问题,并没有深入分析在线评价数据如何进行情感分析预测的实现[7]。
通过上述研究的综合分析,国内对新能源汽车客户满意预测的研究已经很多,采用的数据挖掘方法主要为情感分析法、大数据分析法、客户满意度模型等,现有的研究从客户诉求、客户服务质量、情感分析等进行研究[8],但是很少涉及如何对专业论坛和在线评价数据进行深层次挖掘,并结合新能源汽车本身行业的特点进行客户满意度预测的问题,也有一部分研究针对的是行业具体的应用领域进行研究,例如电商平台、保险理赔服务行业、酒店管理等[9],对新能源汽车行业本身具有的专业技术性及客户需要相结合之处认识不足。因此针对新能源汽车行业客户满意的预测问题,本文结合了情感分析、大数据挖掘的数据挖掘技术架构,利用snownlp进行情感分析并运用LDA主题模型找到评价的主题,为了将客户满意度预测做的更加充分,会选取用户在线评论、专业论坛评价、社交媒体反馈等综合评价评价数据[10],构建综合评价模型,其中采用python爬虫完成评价数据的收集,采用nlp对其进行自然语言处理,提高情感分析的准确性和效率,结合客户满意度测评模型,分别对应各类维度的满意度评分,通过综合分析进行预测[11]。
在基于专业论坛评价数据挖掘的新能源汽客户满意度预测中,主要研究内容从以下几个方面展开:
1.数据收集与预处理:利用python编写的爬虫,从蔚然、华为、小蜜等品牌专门的论坛爬取到的用户的评论数据。数据清洗与预处理主要对缺失的数据进行处理、剔除无用的内容,例如广告、重复评论等;去除HTML标签、特殊字符等,使文本干净与标准;规范化数据格式,将数据整理成适合进行文本挖掘的数据。
2.中文文本处理:借助 jieba 工具对中文文本进行词语切割,以保证精准获取关键词和情感信息等内容。对停用词进行处理,去除掉如“的”、“是”、“在”等不包含实际意义的词汇,避免对后续分析产生干扰。
3.情感分析:情感分析的重点在于判断用户评论的情感倾向(正面或负面或中立)。利用Snownlp库对评论进行情感分,判定用户评论的倾向性(正面或负面),Snownlp提供基于机器学习进行情感分析的工具,对每条评论打分,获得倾向性。
4.LDA主题模型:采用LDA潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型对评论进行主题建模,确定评论最为核心的主题。一个主题代表用户评价中所涉及到的一个话题,例如:驾驶、续航、外形等。对每个主题进行情感倾向分析,结合情感词典或其他算法对不同主题进行打分,进一步分析用户的满意度。综合计算用户不同品牌车型的满意度情况。对比不同品牌对于蔚来、华为及小米在不同主题(续航、性能、外形等)上的情感倾向情况。
第5步,分析比较。进行蔚来、华为、小米三种品牌的满意综合对比,进行不同领域如续航、性价比、设计等的评价和情感的对比,分析不同品牌的用户评价数据,能够反映出关键点上客户的不满因素。如某品牌续航上不满意会影响整体满意度,而另一品牌设计上评价很高会提升客户满意度;市场定位对于不同品牌与用户情感的偏见也存在不同,例如,蔚来所处的高端定位上容易引发情感激烈而引发负面情绪,小米用户定位的价格平价定位会让用户倾向做出不同情感的分析结果。
6.情感结果可视化:借助matplotlib、seaborn等,将分析所得的情感结果以图形方式可视化,从而可直观展现蔚来、华为和小米在各个领域中用户情感分布情况。例如以词云的形式展现各品牌中的常使用词,或以条形图的方式展现不同品牌的情感值。将不同品牌满意度评分以图型化方式予以显示,从而可对不同品牌进行比较。
7.结论以及展望:归纳汇总各品牌的客户满意度得分,总结其优缺点,提出相应的解决措施;可进一步地引入其他数据源(如社交媒体数据源、消费者问卷等)做全方位的探讨,利用深度学习技术提高情感分析结果的精确度。
消费者的偏好即是指消费者在选择不同的产品或服务中,从自己的需要、喜好、信念、经验出发而倾向性地选择某种产品或品牌。消费者偏好是在多种因素作用下产生的心理、社会、经济及个人经验等方面的因素形成的。
LDA(潜在狄利克雷分布)是一种分析大量文档中隐藏主题结构的统计模型,广泛应用于自然语言处理和文本挖掘。LDA模型属于生成模型,主要假定一篇文档是由一组话题以特定的概率产生的,每一话题又由一组词按照特定的概率组成。LDA算法的思想是通过文本中词汇共现关系估计文档和主题、主题和词的概率分布。
情感分析也被称为情绪分析、情感倾向分析,是自然语言处理领域中一种判别和抽取文本主观性的一种技术,尝试从文本中识别并抽取出主观性的信息,并判断文本所要表达的语气,或所反映的情绪和态度是乐观的、悲观的、还是中性的。其主要目的就是通过对语句的分析判断出文本的情感态度、情绪倾向或对某一客体、事件或话题态度(如积极、消极、中性)。
本文选择从汽车之家网站(Autohome)获取汽车口碑,选择'华为'、'蔚来'、'小米'、'比亚迪'、'小鹏'、'理想'6个品牌共19200条评论作为研究样本。利用浏览器模拟请求在指定汽车品牌、车型页面抓取用户口碑和用户打分数据。抓取的数据信息包括:品牌名、车型名、用户名、发布时间、总评分、详细评分(即从评分中爬取的详细分项,例如汽车的动力、操控、舒适性等)。口碑内容(即具体评论内容信息)包括:标题、购买款型、行驶里程、冬季电耗、冬季满电续航、百公里油耗、裸车购买价格、购车日期、购车地点、购车经销商。口碑互动数据包括:评论被查看的次数、评论被赞同的次数、评论被回复的次数。口碑链接及来源(即每条评论的链接及来源)。详细口碑内容(即从口碑页面详情中爬取的详细信息)。抓取的部分数据如图1所示。
![]() |
图 1数据采集结果
数据的去重。数据去重就是指将重复的记录删除,目的是保证分析的数据的完整性,代码使用drop_duplicates根据“详细口碑-最满意”这一列去除重复行的方法,去重是为了避免重复抓取或录入数据出现的冗余数据,如图所示,去重前2303,去重后2007条,如图2所示。
![]() |
图 2去重结果
通过正则表达式进行文本数据清洗,对非中文、非英文、数字以及部分标点符号以外的内容进行清洗。正则表达式是一套非常强大的文本处理工具,用来匹配特定字符或者字符序列。这里正则表达式用来清理文本数据中的无意义符号和非文本噪声信息,以获得更好的文本分析效果,正则清洗结果如下图3所示:
![]() |
图 3清洗结果
停用词是指文本语料中的频繁出现频率但又不会在分析文本时发挥重要作用的字词,如“的”、“是”等。代码将停用词列表从文本中读入并剔除在分词后的停用词。这样可以减少文本语料中对分析无益的信息,凸显文本的核心信息。使用jieba库对文本分词后过滤出停用词库,以期提高文本分析的效果,去停用词结果如下图4所示:
图 4去停用词结果
使用jieba库处理已经清理过的中文文本,分词是中文处理数据的关键,分词之后对所有词出现的频次进行统计,并对停用词进行了过滤。词频统计可以发现文本中出现频率较高的词,为其他分析方法(关键词提取、主题模型等)提供基础,词频统计如图5所示:
图 5词频统计结果
TF-IDF(词频-逆文档频率)是一种使用非常广泛的文本加权方法。用于计算某个词语在文档集合或语料库中的特定文档中出现的重要程度,使用TfidfVectorizer计算每个词语的TF-IDF值,并存为一个数据框。这有利于寻找能够表征文档的重要词汇,一般用于信息检索、文本挖掘.TF-IDF权重计算如下图6所示:
图 6TF-IDF权重计算
由于对在线评论进行了基于词频和语义的统计与分析后,在线评论的相关性信息不容易让研究者清晰地进行解读和提取,不利于进一步开展分析与应用,所以可利用文本可视化技术如词云图和语义关系网络图。其中,词云图是根据词语的高频度展现不同的分布图形,直观清晰展现文本中最显眼词语的高频度,清晰展现文本呈现重点和核心主题。语义关系网络图在此基础上对文本中的实体、关系和主题等信息进行了图形化的显示,可以更清晰地理解文本语义信息构成的关系结构和联系。
图 7华为词云图
图 8华为网络语义图
图 9小米词云图
图 10小米网络语义图
图 11蔚来词云图
图 12蔚来网络语义图
如图11所示,从蔚来新能源汽车满意词频来看,蔚来新能源汽车在品牌塑造、服务质量、驾驶感受、技术变革、车辆性能、车辆外观与造型等多个方面都得到了客户的肯定。
使用snownlp对每条评论的情感得分进行提取,以阈值0.7>0为积极,0.7≥X>0.4为中性,X<0.4为负面,并分类为“正面”“中性”“负面”。统计并绘制成饼图,不同颜色分别对应着不同情感类别,直观地体现用户的反馈。
图 13华为情感分析结果
从华为口碑评论情感倾向判断看出,在全部的评论中,情感向上的占比高达86.77%,远超过情感向中间、情感向下的比例(4.87%、8.35%),这也表明在华为产品的用户评论中,产品受到大多数消费者的满意及好评。而在好评中,可能多来源于产品的机能及外观设计的优化、产品技术创新等各方面,因产品带来的用户对华为品牌的喜爱及信赖,较少的情感中间和情感向下的评论可能是一些产品的针对性缺点或使用时的感受。因此可以看出,在华为产品的市场销售和产品口碑中,可进行有针对地改进,对那些在市场上收到好评的产品中,不断提升消费者的满意度,让更多人感受到该产品的魅力。
图 14小米情感分析结果
小米口碑评论情感统计中,86.96%正向的评论远远超过了中性评论和负向评论(2.9%和10.14%),这说明市场上对于小米产品进行销售的认可度很高,绝大部分用户都表达了对于小米产品性能、产品设计、产品质量以及小米产品性价比的认可,另外少数的中性和负向评论很有可能集中一些产品细节或单个用户使用的场景。小米收到了消费者比较普遍的认可,说明其有着良好的市场认可度和良好的品牌忠诚度,而对于其改进来说,用户的满意度依然有着很大的持续改进空间。
图 15蔚来情感分析结果
如图10所示,蔚来口碑评论情感分析积极评价最高,占80.49%,超过消极评价14.4%和中性评价(5.11%)。表明用户对蔚来汽车有强烈的满意度及忠诚度,尤其在产品性能、用户体验和品牌创新服务方面。同时存在数量众多的消极评价,意味着部分用户的某些期待或体验还没有达到,或者存在一定问题,有待改进。少量的中性评价或表明用户处于观望的态度,也有可能用户的体验总体上没有特别亮点也没太多痛点问题。蔚来汽车在市场上是积极的,同时也明确需要改进的地方,增加用户满意度。
LDA模型的最主要思路就是通过对大量文本信息的分析识别文本的主题,进而建立一个概率模型。由于互联网市场的蓬勃发展,网络文本的来源不仅仅是文字,包含了大量的可以被深入挖掘的数据。故而LDA主题模型应用到文档标记和主题发现等研究中。在文本分析方面,依然通过汽车用户对汽车使用后的评论数据进行分析。本文采用python进行主题分析建模,得到最终提取的结果。借助gensim库构建语料库和词袋模型,把文本数据处理成可用于LDA模型的格式。设定LDA模型中的主题数目,迭代次数,词频阈值等。用LDA模型训练语料库,并获取主题-词语分布和文档-主题分布。提取每个主题的关键词,进行权重排序或者设定阈值进行筛选。借助pyLDAvis库对LDA模型进行可视化,生成交互式的主题模型可视化图表并生成html文档。利用关键词以及文档-主题分布理解每个主题的含义和特点,把握文本数据中不同主题的分布特点。
通过主题分析我们可以找到文本数据主题、主要内容,能帮我们把握文本数据所隐含的内在联系、分布等特点。进而了解文本数据内涵和本质,而且LDA主题分析还可用于文本的分类、信息检索、推荐等领域,从而为文本数据带来深度把握和实际作用。
图 16华为主题一致性和困惑度
由一致性和困惑度分析曲线图可知,观测到的最佳建模主题数,数值应该取困惑度小同时一致性高的拐点,最优主题数9效果最好。
图 17华为主题关键词分布
图 18华为主题可视化结果
通过LDA分析得到华为口碑评论的主题分布,分析可以清楚看出用户在华为智能化、驾驶性能、舒适性以及产品多样性这4个维度上有较高的讨论热度。可以看出,华为智能化、用户体验性能强且在用户眼中驾驶性能与舒适性能上满足度较好。上述主题结果对华为今后设计产品特性以及制定市场策略具有指导意义。另外对于小主题但仍有较重要意义的方面,华为也可以有针性改进甚至推出定制化功能满足较为具体的市场消费群体;华为市场表现强劲,但华为用户满意度与开拓新的市场仍然有一定的探索空间。
图 19小米一致性和困惑度
由一致性和困惑度分析曲线图可知,观测到的最佳建模主题数,数值应该取困惑度小同时一致性高的拐点,最优主题数9效果最好。
图 20小米主题关键词分布
图 21小米主题可视化结果
结论:根据LDA分析,提炼了小米口碑评论的主题,凸显了小米汽车智能、电动车特点、汽车外观、驾驶感受等方面的用户关注程度。小米在智能、电动车方面的表现得到了用户的普遍认可,外观、驾驶感受对小米汽车的满意度也是影响因素之一。对小米的这些分析有利于小米在用户需求上的进一步改进,针对“不满意”的改进和针对“一般”的改进一样重要,将之积极改进并推出,可以受到小米尚未触及的用户群体的关注,即营销理念上“挖宝”。小米汽车目前的市场表现良好,但是还有空间去实现用户满意度上的改进或把握和发现一个更大的市场。
图 22蔚来一致性和困惑度
由一致性和困惑度分析曲线图可知,观测到的最佳建模主题数,数值应该取困惑度小同时一致性高的拐点,最优主题数6效果最好。
图 23蔚来主题关键词分布
图 24蔚来主题可视化结果
其他主题,如主题3(试驾、空调、打开等)主题4(蔚来、驾驶、体验等)所占比例较小,但却是对蔚来车型的方面主题意见(试驾、车内、智能方面),可能会涉及用户关于试驾的真实感受、车内设施及智能化方面的意见,这表明这些主题可能是更具细分化的用户体验或用户需求方面的主题意见,或许在当前蔚来品牌领域中很少涉及甚至会偏窄一些。