大数据在浏览领域中的实际操作
一、现阶段数据新闻的实操所存在的主要问题
(一)数据收集来源单一
目前数据新闻面临的首要问题就是缺乏可收集的数据信息源,或者数据库信息过于单一,缺乏全面、结构性的数据源数据库。从我国的情况来看,作为常用来源的商业数据库中的数据,通常只集中在某一个方面,其所能描述的用户特征也只是片面和单一角度的认识。腾讯作为目前拥有最大即时通信工具的互联网巨头公司,掌握着大量用户的社交关系数据,虽然通过微信线上支付(红包)的功能,占据了一定移动支付的市场,但比起支付宝(阿里巴巴旗下的个人第三方支付平台)来说,腾讯对于用户消费习惯和财务状况的洞察和了解又远不及后者。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展。
以今日头条为国内个性化推送新闻的媒体为例,作为国内第一个个性新闻化推送新闻的产品类实践者,今日头条自2012年创建后,到2016年8月,已经拥有装机用户超过5.5亿,日活跃人数超过6000万。从其CEO对今日头条有关用户的数据信息来源的介绍来看,主要是三个方面:第一,今日头条通过对用户的行为,如点击、停留、评论、转发等数据的搜集和聚合分析,获得用户对新闻信息的个人喜好和需求的推算。第二,根据用户所处的环境特征,上网环境是Wi-Fi还是付费流量、GPS所在地,是在常驻地还是旅游,是白天还是晚上等获得用户地理方面的数据信息。第三,基于用户使用社交网络账号关联登录后,系统对于用户社交圈和社交关系的分析,来得到关于用户更清楚的社会化画像,从职业身份或共同爱好入手计算用户的兴趣和需求。最后,系统通过把用户行为、地理、社交三方面特征组合,利用算法综合实现对用户偏好和个性需要的挖掘。
但是,伴随着个性化推送新闻的发展,也出现了“信息茧房”这种对现代人接收信息弊大于利的问题。有学者认为出现“信息茧房”的主要原因是,在互联网时代,人们可以完全根据自己的爱好定制信息,从海量信息中随意选择自己关注的话题,久而久之,这种“个人日报”式的信息选择行为会导致网络茧房的出现。当商业信息服务利用个人定制的需求开始为个人提供个性化新闻时,人们会不自觉地失去了解不同事物的能力和接触机会,深陷个人“信息茧房”之中。减轻“信息茧房”负面影响的方法首先是要提高算法对个人信息需求的构面了解,不但要满足受众显性的,比如根据行为特征收集到的需求,还要结合其社交圈子,综合改善个性化推送新闻对用户需求的完整定义和把握,尽可能避免越推送越窄,越推送越偏的现象。
(二)数据处理能力有限
除了数据来源单一以外,数据新闻目前存在的第二个问题是,处理数据能力有限。而数据处理和分析能力是决定数据挖掘的关键环节。目前,我们所使用的数据处理工具和算法都还比较传统,不适用大数据规模大、体量大的特点。祝建华教授说过,虽然大数据正在发生,但是我们对大数据的了解、处理能力还处在早期阶段。这就势必会影响数据新闻未来的发展。有学者认为成熟的数据处理技术涉及三个方面:存储、提取和统计分析。
目前,在存储方面,我们计算机的存储水平还是远远跟不上大数据的规模,分析数据前先要把数据读到内存里,而现在功能比较强大的计算机内存也远远满足不了一个大型网站一天所产生的数据,这样一来,这个过程就需要耗费大量的时间,影响数据处理速度。根据2014年万璞和王丽莎的总结,目前常见的分析数据的算法和模型有:①传统统计方法:抽样技术、多元统计分析和统计预测方法等。②决策树:它利用一系列规则划分,建立树状图,用树形结构来表示决策集合,可用于分类和预测,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。③人工神经网络:它模拟人的神经元功能,从结构上模仿生物神经网络,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,是一种通过训练来学习的非线性预测模型,它可以完成分类、聚类、特征挖掘、回归分析等多种数据挖掘任务。④遗传算法:它是基于自然进化理论,在生物进化概念的基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的,是模拟基因联合、突变、选择等过程的一种优化技术。⑤关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…∧An→B1∧B2∧…∧Bn,一般分为两个步骤:第一步,求出频繁数据项集;第二步,用频繁数据项集产生关联规则。⑥最近邻技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来做聚类和偏差分析。
根据以上方法我们可以看出,现有的大数据分析技术都是基于计算机技术辅助统计技术实现的,除了遗传算法和人工神经网络外,都是经典的统计学算法,这些算法从19世纪七八十年代开始发展,到20世纪20年代初成型,距今已有80—120年的历史。虽然它们具有极高的稳定性且较为成熟,但它们是为分析普通数据设计的,对于大数据的特点来说,难免有不能契合的方面。
(三)数据可视化表达程度有限
数据挖掘的第三个环节是数据展示,即可视化表达数据处理结果。米尔科?劳伦兹于2010年在阿姆斯特丹召开的第一届国际数据新闻圆桌会议中指出,数据新闻要以可视化的呈现数据并合成新闻故事为最后一个流程。
数据可视化,在今天已经是一个固定的概念,指的是将数据信息的“量值”或“关系”等转变为直观的图形。数据的可视化加工,目前主要包括将数值型、文本型的数据及其关系用视觉化手段,例如图片、动画等形式呈现出来。
可视化新闻是随着数据在新闻中的广泛运用出现并发展起来的,它是以数据为核心、信息为支撑、可视化为基本载体的跨媒体新闻报道形式。可视化新闻的价值一方面取决于它的表现形式,另一方面取决于它对隐藏在宏观、抽象数据背后的新闻故事性的展示。
然而,并不是所有的新闻事实都适合用数字或数字化的方式来表现。数据的可视化表达一方面受表达形式的局限,在告诉受众“发生了什么”的方面要强于告诉受众“为什么发生”。当数据的可视化仅限于告知事实时,可视化新闻或者数据可视化手段就只能用于最基础的新闻报道。像深度报道这一类的新闻,就不能很好地涉足。另一方面,即便可视化技术有所改善,也很难改变数据本身不擅长表现复杂因素和关系的特点。学者丁柏铨说过:“个人与个人或群体之间的关系多涉及政治、经济、文化等各种因素,涉及现实中的利害关系和历史上的恩恩怨怨。”
二、人工智能时代数据新闻的发展之道
在人工智能时代,人工智能和大数据形成了相互推动的关系,一方面人工智能需要大量的知识和丰富的经验,使机器获得足够的数据量;另一方面,大数据技术在人工智能时代获得了前所未有的发展机会,我们就以上有关数据挖掘的三个环节,来看人工智能带给数据存储、数据分析和数据展示三个方面的机遇和挑战,作为探讨传感器新闻和可视化新闻未来发展的技术基础。
(一)云服务平台——夯实数据存储基础
在人工智能时代,伴随云计算的飞速发展,关于数据存储的技术能力迈上了新的台阶。云计算指的是在技术上可以理解为将众多能力较弱的服务器,通过网络有机集在一起,形成一个能力超强的、可动态伸缩的资源池以完成大任务。它是一种按需提供的网络访问,用户通过付费进入计算机资源共享池,这些资源包括网络、服务器、存储和应用软件等。而云平台的出现,使得云计算成为互联网上一项成熟的公共服务,它的优势在于,平台性的收集、聚合和储存海量碎片化的数据,为进一步分析数据提供可靠基础,是挖掘和处理大数据的操作平台。从整体上来看,这降低了个体储存、计算、分析数据的成本,使整个互联网上的数据存储和计算通过云平台获得了规模效应。
不管是技术上还是经济上,云平台都将为我们应对持续出现的海量数据提供最基础的技术保障,使人们能更游刃有余地应对数据洪流。未来新闻媒体建立自己独立的数据库是大势所趋,面对可能到来的海量数据,大型云服务平台的出现,将缓解有关大数据存储的困境。谷歌于2015年年底已正式建立谷歌云平台,综合其他服务为用户提供一体化解决方案。
(二)智能感知——传感器新闻:提高数据收集质量
随着物联网技术的发展,装配在大量终端上的各类传感器可以采集到海量且种类丰富的实时数据;不断升级的通信网络技术,又使这些数据可以完整地回传到云端服务器上;而应用广泛的云计算技术,令网络和设备运营商又有途径去进行实时存储和高效并行处理。这些都为解决数据新闻来源缺乏的问题提供了希望,同时也为传感器新闻的发展奠定了基础。
传感器新闻来源于2013年6月成立于哥伦比亚大学托尔数字中心的“传感器新闻”工作小组,根据该中心的定义,传感器新闻指“利用传感器生成或收集数据,然后分析、可视化、使用数据来支持新闻报道”。目前,在新闻领域应用传感器还属于比较新的探索,仅有美国的个别媒体在进行尝试。
虽然伴随着移动通信网络以及智能终端的发展,采集到的数据呈指数型爆发,但以传感器收集到的现场数据作为新闻数据源,却无法避免量化优势背后的数据体积大、结构复杂、冗余度高且价值隐匿等问题。这些问题都会使数据分析和提取格外耗费成本,并考验新闻从业者的综合素质。
在人工智能时代,具有智能识别和学习能力的分析系统可以帮助媒体有效挖掘大数据中最有价值的信息。比如通过进行有效的数据分类,提高数据资源的利用率和匹配程度。一个常见的情形是,当传感器采集到大量数据进行数据汇聚和初步处理时,如果入网网关具备智能感知的功能,就可以过滤掉重复冗余的信息、只上传必要和价值高的数据,这样不仅可以节省大量的传输带宽,也可以在第一时间收集到敏感信息。新闻媒体在筛选第一系统的数据时,如果能配合智能算法,也可以淘汰掉不符合新闻生产标准的低价值数据,并依据新闻生产的要求,筛选敏感信息和关键部分。最理想的情况是还能做到根据具体的应用场景和需求合理配置数据,提高数据资源的利用效率。
这样既缓解了数据新闻缺乏有效数据源的问题,又帮助数据新闻从生产源头起就提高了分析数据的操作效率,从数据的结构和质量两个方面作出有益的技术支持。
(三)智能展示——可视化新闻:完善数据展示功能
从米尔科.劳伦兹于2010年提出可视化新闻的概念到现在,虽然这一新闻形式诞生还不到十年,但是借助新媒体在信息传播中的主导地位以及数据采集和分析技术的不断突破,它已经表现出了强劲的发展势头。在以大数据技术为核心基础上形成的新闻可视化,关键在于如何通过可视化的方式传递、通过数据挖掘,产生有价值的信息。
目前,数据新闻在发布过程中倚重图表表达和数说新闻的方式,在数据新闻的最终作品上,自然的科学性是它最大的特点,不擅长讲故事和缺乏传统新闻特有的人文主义关怀精神是它的局限所在。
人工智能(AI)时代,伴随着视觉技术的进一步发展和新闻打开方式的不断创新,数据展示技术也在不断提高,受众对数据成果的可接触程度也将获得新的深度。一方面数据分析后的结果可以最大限度地以最方便受众的方式呈现出来,另一方面数据挖掘出的意义关系也可以体现得更明显。近年兴起的虚拟现实(VR)/增强现实(AR)技术,都代表了未来智能展示技术的发展方向。以2015年媒体对9·3阅兵的报道为例来看,利用VR技术进行新闻现场直播和全景展示已经逐步进入新闻媒体的报道中,全景式报道和基于数据分析的可视化新闻已经成为新闻报道创新的一大亮点。日后,新闻+VR/AR的模式将帮助受众更清晰地进入时间或空间跨度大的环境中,在物理形式不受限的条件下认识到数据背后更长期、总体的规律。比起过去传统的可视化手段,大数据与视觉技术的结合带来的沉浸式新闻不仅是新技术手段下新的新闻革新方式,更是数据可视化新的发展机会。
数据可视化技术的创新不能解决可视化新闻的所有问题,在数据新闻发展的同时,我们不能放弃对新闻事实做质性分析和文字描述的工作,毕竟文字记录才具有表达丰富性和叙事故事性的特征,更能体现新闻产品的人文关怀和新闻活动的本质。
三、结语
随着人工智能各项技术的发展,数据新闻生产的各个环节都获得了更成熟的技术支撑,从数据收集到数据分析再到数据展示,人工智能技术虽然不能解决数据新闻在发展过程中面对的所有问题,但是AI时代的数据新闻,势必会获得前所未有的发展机会。更强有力的信息存储平台、更智能的信息识别和采集系统、更人性化的可视化技术,都为数据新闻的未来发展拓宽了道路。
同时,机器人写作、传感器新闻和可视化新闻等人工智能时代发展起来的新闻生产创新模式也昭示着:AI时代的新闻生产和传播领域将是智慧与智能的共同参与、人与机器的合作建构的。
大数据在浏览领域中的实际操作为中国U网原创文章,在不经过允许的情况下,禁止用于商业用途或随意转载,转载请注明出处,并加上本页链接地址:
http://www.cuwww.com/news/detail-752.html
- 把Python程序编译成Windows可执行文件exe的工具pyinstaller
- 解决:Could not resolve host: mirrorlist.centos.org; Unknown error解决方法
- 宝塔安装PHP的Swoole扩展的时候,CentOS 7提示No package 'libbrotlienc' found的解决方法
- ModuleNotFoundError: No module named 'PIL'解决方法
- 在Linux服务器上手动生成自签名证书
- Python数据类型中比较有趣的事情
- CentOS Linux下更换为阿里云的源repo
- Linux上安装宝塔BT面板企业版破解版(开心版9.0.0/9.1.0/9.2.0)
- Linux上如何卸载宝塔(BT)面板?
- 宝塔(BT)忘记BasicAuth身份验证密码怎么办?
- Windows11家庭版 出现身份验证错误。要求的函数不受支持,这可能是由于 CredSSP 加密数据库修正 错误解决办法
- 宝塔(BT)面板打不开,但网站可以打开的解决办法