网友提问 :3、刚刚也提到数据的重要性等等,今年也看到高质量数据在大模型发展过程中确实是非常重要的,公司有哪些高质量的数据,包括未来可以通过哪些途径可以再获取高质量的数据?
2023-08-23 00:00:00
每日互动 (300766): 回答:答:一方面,我们积累线上 APP 行为特征数据。比如我们可以洞察 10 亿台设备上用户使用APP 的行为特征,全国大概有三千万种不同的 APP,我们做了非常细致分类,可以通过聚类算法把各种相关 APP 聚在一起。比如两个 APP 经常被同一个人安装,那这两个 APP 之间会存在某种联系,我们可以通过算法把它们聚在一起。大模型出来之后,我们还可以根据网络上对APP 的充分评价以及对 APP 本身的描述,用 NLP 的方式按相关属性进行聚类。这在我们业务的运用在起到非常不错的结果,这些日常的积累和梳理是非常重要的。另一方面,我们积累很多线下场景数据。我们公司内部一直以来有个“百千工程”,就是希望某一个标签提出来,它下面有 100 万到 1,000 万的人群拥有这个标签,既有区分度又有颗粒度,我们形成了大概 5,000 多个标签体系,也就是 5,000 多个人群包的特征,这些都会成为我们非常重要的数据资产。上述提到的场景都是我们高质量数据在背后起的作用。此外,结合刚才提到的公共数据开放,如果过程中只是开放原始数据,其实利用还是蛮难的,对这种数据的治理能力,就需要我们积累的 M 层的能力,我们的 DiOS 能够很好的把公共数据中非结构化数据结构化,对数据进行加工,包括把大量的数据能够向量化,通过“数据中间件”的方式,在 APP、跨主体之间进行信息的传递,这些起到了很好的作用。从数据质量上来讲,我们把线上 APP 行为数据和线下的场景数据做得非常好,同时延伸出来,也可以把像家庭电视跟手机终端之间关联好,形成家庭数据;把路上的车跟人之间形成驾驶数据,很多延伸产物都在梳理过程中诞生。
2023-08-23 00:00:00