E星体育ogle Flu Trends)”对流感爆发的追踪比任何政府机构做的都要出色。
重回今天专栏的主题,看看这些数据挖掘技术能够怎样用于从数字新闻中提取更多的价值。
互联网目前已经能够提供了解各类数据的必需工具,如谁在访问网站、他们喜欢什么等等。要做的就是更加准确地了解用户和预测他们的需求。
下面我们拿Facebook来作类比。通过仔细分析用户产生的“内容”——声明、图片、链接、与朋友的互动、“赞”、“戳一下”等等,E星体育该社交网络能够开发出令人震惊的预测模型。它能够发现某个用户的状态(单身、E星体育已婚、已订婚等等)改变,即使那个用户从未明确提及。同样地,Facebook能够准确预测出两名在其网络上偶尔会进行交流的用户发展成情侣关系的可能性。
同理,该公司也能够发现某用户经济状况或者身体状况的改变。Facebook在不需要人们告知的情况下,通过与数百万类似行为相关的语义分析就能发现谁刚刚失业,谁非常低落,谁非常高兴,谁怀孕了,谁已经订婚……但对于Facebook来说,如果它向用户显示人人都能看到的令人尴尬的精准广告或者令人厌恶的推荐,就会给用户造成难以忍受的干扰。
应用到新闻内容,同样的技术也能帮助改善对读者的了解。例如,通过将某读者的阅读习惯与数百万其它读者的进行对比,网站能够发现他的职位变动。基于这一点,如果发现劳拉史密斯(Laura Smith)有70%的可能性已经在一家圣地亚哥生物技术初创公司晋升为营销经理,那网站就能够向她投放更加精准的广告,尤其是如果还发现她似乎热衷于徒步旅行的话。
更加重要的是,E星体育随着时间的推移,该网站能够逐渐进行定制化:当然,相比普通读者史密斯将会在商业栏目看到更多关于生物技术的内容,同时艺术与休闲栏目也将能选出更多很可能符合她口味的内容,旅游栏目看起来也将更像是一本户外杂志,而非是面向患强迫症都市人的旅游指南。渐渐地,史密斯获得的内容将变得更加有用,更有吸引力。
由此带来的经济效应也是显而易见的。网站的广告——或者说是更好的软广告(用户讨厌横幅广告)——将能卖出比以往要高得多的价钱,更多相关性很高的内容的出现也将促使史密斯每月浏览更多的东西。另外,鉴于史密斯由于晋升获得了更高的薪水,随着她对网站的兴趣越来越浓烈,她很可能会成为该网站的高级订阅用户;届时网站就会在正确的时候向她提供量身定做的内容。
Facebook需要在用户愿意放弃隐私换取出色的服务的前提下,才能公开显示用户的隐私。与该社交网络不同,新闻发行商会更加地谨慎。首先,它们向读者提供的广告和内容只有读者本人才能看到,他们的Facebook朋友都不会看到。这是很大的区别,需要高级的定制化水平。另外,谈到阅读,为用户保留一份意外惊喜也非常重要。我是说,没有人会喜欢100%定制化的网站的,因为那样会让读者觉得有点毛骨悚然,致使他们去别的网站寻找让人振奋的内容。
总之,通过收集和分析行为数据,网站是能够向读者提供富有吸引力的新闻服务的,E星体育而它自己也能够获得更多的收入。
这还要多久才能实现呢?在新闻领域,“大数据”还处于初期发展阶段。但随着摩尔定律继续发挥作用,使得所需的强大计算能力变得更加实惠,它将会更容易为内容发行商所获取。E星体育20年前,只有美国国家安全局(NSA)才能处理大型运动场大小的私人数据中心的大量数据集。如今,发行商能够与小公司展开合作,那些小公司将其CPU时间和存储能力外包给亚马逊的Amazon Web Services服务,并使用开源的分布式系统基础架构Hadoop,从而挖掘成千上万份档案资料。这也是“大数据”蓬勃发展,可为新公司提供改善其商业模式的新机遇的原因。(乐邦)