智慧星光采用流式处理+机器学习方式对数据进行秒级筛选处理。
文| 爱分析 洪军
目前我国大数据产业正处于高速发展期,多种商业模式得到市场验证,新产品和服务不断推出,在舆情监测分析细分领域,智慧星光无疑是行业首屈一指的数据智能服务企业。
01、领先的文本大数据服务商
智慧星光成立于2012年,成立之初就有产品上线销售,并于第二年实现盈利。近几年业务发展迅速,公司业绩收入也爆发式增长。
多年来,智慧星光的大数据中心对新闻资讯等互联网公开信息进行收集、存储、处理和计算。目前公司累计存储超过千亿条的文本数据,形成了重要的数据资产,为数据索引、标记、查询、挖掘分析奠定了扎实基础。
智慧星光采用流式处理+机器学习方式对数据进行秒级筛选处理。为此,智慧星光每年投入千万资产去构建物理服务器,并自研搭建流式处理框架,以满足流式处理对内存容量、分布式实时并行计算技术的要求。同时,公司基于机器学习技术对句子和文章进行理解,进行正负面判断和预警筛选,情感分析等。
基于数据挖掘、数据可视化等技术,智慧星光开发了文本超脑平台和星光大数据平台。这两个平台以开放方式对外服务,客户可以使用平台上的数据,也可以向平台上传数据,做融合数据分析。这两个平台的核心价值在于支持多源异构数据,使得平台可以不断沉淀海量数据,从而形成高商业价值的可运营大数据资产。
智慧星光大数据中心目前已经在舆情秘书、舆情专家、智慧商情、网媒管理系统等方向得到应用。通过大数据对互联网突发事件、热点事件、话题进行监测分析和实时追踪,帮助政府、企业能够及时全面的了解所关注的互联网舆情动态。
02、服务2万余家客户,获客能力是公司的核心竞争力之一
智慧星光在舆情领域深耕7年,服务的政企客户数已超过2万家,涉及政务、医疗、教育、金融、能源、汽车、房地产、快消品等众多行业,可以快速获客的原因主要在于以下两点:
一方面,销售团队规模巨大帮助获客。目前智慧星光以直销为主,销售团队近300人,占总团队人数一半多,在大部分省市都拥有本地销售人员,可以为客户提供快速的售前、售后服务。
另一方面,SaaS模式利于规模化推广。传统舆情分析产品是以本地化部署方式收费,而智慧星光的产品是以SaaS形式对外提供订阅服务,价格优势明显,技术保障到位。如此一来,不仅可以对产品进行快速推广,而且毛利率能够得到有效提升。
爱分析认为智慧星光以文本数据处理起家,积累了大量数据,并将产品不断打磨,在舆情领域也获取了大量客户,能够形成很好的卡位优势,打下坚固的护城河。
未来,随着智慧星光技术上的不断优化与数据的不断积累,将向金融、传媒等领域快速拓展,业绩也将快速增长。
近日,爱分析专访智慧星光政务事业部总经理骆飞,就大数据发展趋势与智慧星光业务发展进行了深入交流,现摘取部分内容如下。
03、业务核心在于星光数据平台与文本超脑两大平台
爱分析:智慧星光组织架构上分为几个事业部?
骆飞:主要分为政务事业部、企业事业部(除SaaS产品外,也为企业定制化开发,比如给银行、运营商做的客服系统分析),还有智慧图谱。其中政务事业部是传统主力方向,规模比较大。
爱分析:智慧星光提供的星光数据平台和文本超脑主要有哪些功能?是主要提供给事业部服务吗?
骆飞:智慧星光希望建立文本大数据的生态圈,这两个平台是基础平台,提供数据和计算能力。
星光数据平台:之前我们很多的数据,只是用于舆情预警,给客户看了之后,就不要了。后来我们认为应该把这些数据资源存下来,放在平台上做统一的管理、查询、分析,发挥更大的价值。
因此我们星光数据平台把定位于一个多源异构的数据平台,能够接入其他的数据。虽然接入的数据结构不一样,但是可以做统一的存储和分析。客户可以使用我们的数据,也可以把自己的数据上传,做联动分析。星光数据平台以文本数据为主,主要侧重海量数据,从存储到分析到展示,并且支持一些BI分析。
文本超脑:文本超脑采用了目前较先进的机器学习技术,通过大量样本的学习,形成计算模型,从文本数据中获取有用的信息,包括情感判断,主体分类,实体、说法等。
04、产品体系丰富,多为标准化产品
爱分析:智慧星光的产品体系有哪些?
骆飞:公司提供的产品一类是标准化产品,一类是定制化项目,还有一类是数据和专家的服务。
主打的产品是舆情秘书,主要为客户提供快速舆情预警,事件脉络分析和自动化报告服务,客户对关心的内容可以自行设置服务。
舆情专家是舆情秘书的升级版本,增加了导控功能(自动发帖等)和工作台功能(单位内部和单位间信息的上报、下达、信息反馈),可以实现工作流程的集成。
爱分析:智慧星光产品定制化产品占比多少?
骆飞:我们提供的SaaS产品多为标准化的,多年的磨砺完全可以满足用户的需求,定制化比较少,会有一些自定义的功能,比如说关键词、规则、条件设定、报告格式、页面样式logo等。
对于一些特殊需求的客户,我们也提供定制化项目开发。
爱分析:智慧星光的收费方式有哪些?
骆飞:SaaS产品收取服务费。我们提供分级标准,区县级、市级、省级各有不同;企业也是按照规模收费,但这些都和使用数据量直接相关。
05、舆情领域卡位优势明显
爱分析:从舆情的需求角度来说,现在市场需求是否有变化?
骆飞:需求大方向上没有太大变化,但是客户的要求越来越高,时效性的要求很高,现在都是分钟级的要求。客户需要对舆情信息实时进行监测,不能拖延。
此外,关注舆情的客户多了以后,关注的范围也越来越大,对于精确性的新要求也在提升。
爱分析:与友商相比,智慧星光有哪些优势?
骆飞:与友商相比,我们是有一些优势的:
一,数据量上的优势。15年下半年的时候,我们就达到了每天3、4千万条数据处理和存储,其他厂商一般还在几十万或者百万。目前我们每天新增的数据量已经超过2亿。
二,数据库不断累积之后,在对数据分析上有很大的帮助。
三,此外,商业模式和架构上,也会有一定的平台优势。
06、沉淀的舆情数据库,提供情报搜索与分析功能
爱分析:数据是否在智慧星光有留存?
骆飞:公司从14年10月开始做数据存储,目前已经累计超过1000亿条。主要还是以文本数据为主,图片数据我们做了图片识别,识别结果存下来,视频会把链接存下来。我们把存储的数据存在了自建机房里面,我们有一个近2000台的物理服务器机房,另外每年还会投入上千万资金去进行存储。
爱分析:智慧星光历史数据的应用有哪些?
骆飞:非常多的应用,智慧星光希望做文本大数据生态,就是希望发掘这些数据的价值,希望更多领域的专业企业或人才可以利用这些数据,开发更多的应用,服务社会。
这些数据可以用于行业研究、社会风险治理、民意调查、口碑评价、传播分析、精准营销、品牌追踪、政策研究等等众多领域。在此也希望与更多的友商共同开发和利用文本大数据,让古老的文字发挥其新的价值。
调研 | 李喆