面向财经新闻的文本挖掘系统设计与实现(论文)
目录
摘 要 I
Abstract II
1.绪论 1
1.1 研究目的和意义 1
1.2 财经新闻综述 1
1.3 关于Python爬虫 2
1.4 文本挖掘概述 2
1.5本系统架构 3
2. 数据榨取与分析 6
2.1 网页源代码分析 6
2.2 数据清洗与过滤并规则化 8
2.3 中文分词 9
2.4 股票板块 12
2.5 评价 14
2.6 股市预测 17
2.7 数据可视化 19
3. 股市行情验证与反馈 21
3.1 对未来七天的预测 21
3.2 七天后的实际情况 24
3.3 分析预测准确度 27
4. 结论 28
4.1 本文本挖掘系统的科学性与实用性总结 28
4.2 本文本挖掘系统得出的结论 28
4.3 不足与展望 29
参考文献: 30
致谢 31
以浏览器-屏幕为媒介传播的财经网站所披露的新闻,涉及到了上市公司的董事意见、产业行情、经营水平和财务战略决策等一系列重要信息,是股民进行投资的重要信息来源。因此大型财经新闻网站的报道,将在一定程度上影响股民的判断与决策。但是,财经新闻的价值到底有多大,如何以批判性思维的角度来辨识财经新闻,是各国学者进行财经研究与分析的热点。
文本挖掘是数据挖掘技术的一个重要组成部分,它通过计算机自动地从不同的文本源中抽取出可用的信息。把这种信息与新现象和假设联系起来,以探索出传统研究手段所研究不到的盲点,是文本挖掘的要点与难点所在。因此,面向财经新闻,构建文本挖掘系统,指导股民进行投资决策,具有理论价值也应用价值。本文通过系统设计与分析后发现,新闻报道中积极词汇往往多于消极词汇,而且新闻报道的情感与股市的涨跌没有正相关关系。此外,本文使用了ARIMA模型,基于板块数据对未来7天的相关板块趋势进行预测,具有一定借鉴指导意义。
1.4.2 文本挖掘
“文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。”正如伯克利大学的Sims在其blog上所言:“文本挖掘是通过计算机,自动地从不同的文本源中榨取出那些新的信息出来。把榨取出来的信息与新现象和假设联系起来,以探索出传统研究手段所研究不到的盲点,是文本挖掘的要点所在。”
世界上文本挖掘技术已取得了一定的发展。由于中文区别于英文的语法特殊性,想要挖掘出财经新闻的关键字还是一项比较复杂的工程,难点在于对中文的分词,以及词语性质的分类。