(相关资料图)
文|林炜鑫
编辑|邓咏仪
5 月 26 日,海天瑞声在北京召开媒体见面会,CEO 王晓东宣布品牌升级战略,公司保留中文名称 " 海天瑞声 ",将英文名 "Speechocean" 更改为 "Dataocean AI",并启用了全新 logo。
海天瑞声是国内 AI 训练数据专业提供商,致力于为 AI 产业链的各类机构提供 AI 算法模型开发所需的专业数据。
王晓东表示,海天瑞声靠语音数据业务起家,逐步扩大业务范围,现在已经实现了语音、图像、文本全覆盖,公司的目标是为客户提供高质量数据。" 现在叫数据时代,需要新基建," 王晓东说," 我们公司提供高质量水泥,数据时代新基建建设的基础,都需要数据。"
同时,海天瑞声也将首次免费开放 DOTS-MM-0526 多模态数据集,包括音频、视频、文本等信息,希望借此为中国人工智能开放生态建设贡献力量。
海天瑞声 CTO 黄宇凯介绍了公司自研的专为自动驾驶设计的数据标注平台 "DOTS-AD 自动驾驶标注平台 "。该标注平台全面支持 2D、3D、4D 电晕或图像数据标注;支持自动化标注,数据标注效率将提升 8 倍;智能化管理数据,确保客户的商业数据安全合规。
眼下大模型势头正盛,众多科技公司纷纷布局大模型。王晓东认为,由于大模型的出现," 整个数据服务市场将重新洗牌,集中度也将进一步提升。" 市场将逐步淘汰研发弱、资源差的一些中小玩家。
面对多家巨头下场的激烈竞争,海天瑞声拥有自身的技术壁垒。王晓东以语音数据为例,公司有专门的团队在全球采集各种语言数据," 我们有我们的语言专家,有大量的资源 "。王晓东表示,目前公司拥有 190 多种语言数据。
大模型也将进一步影响相关的数据服务。黄宇凯告诉 36 氪,大模型的训练主要分为两个阶段,第一阶段叫预训练,对数据采集和数据清洗有很高的要求," 不是越多越好 ";第二阶段叫微调或对齐阶段,需要高质量的 prompt(指令)," 非常难写 ",prompt 决定了训练效果,因此标注人员的自身素质也很重要。大模型时代,技术更新迭代的速度很快,黄宇凯说," 我们非常激动,当然这里面也有很多机会。"
X 关闭
2月7日,在北京冬奥会短道速滑男子1000米A...
科技日报合肥2月8日电 (记者吴长锋)8日...
在北京冬奥会自由式滑雪女子大跳台决赛中...
2月8日,当看到中国选手谷爱凌以漂亮的高...
科技日报北京2月8日电 (记者张佳星)记...
人民网北京2月9日电 (记者王连香)记者...
科技日报北京2月8日电 (记者张梦然)据...
科技日报讯 (记者马爱平 通讯员赵鹏跃...
2月2日,海军航空兵某旅组织战备巡逻。刘...
“前方道路遭‘敌’破坏,车辆无法通过。...
Copyright © 2015-2023 今日产业园区网版权所有 备案号:沪ICP备2023005074号-40 联系邮箱:5 85 59 73 @qq.com