AI训练数据,不仅浩如烟海,而且种类庞多。置身其中,很容易茫然迷失,既无法全面洞察这些数据的庐山真面目,更不知该如何进行数据配比、选择。
为了解决上述问题,联想研究院人工智能实验室和北京大学机器感知与智能教育部重点实验室副主任,大数据分析与应用技术国家工程实验室常务副主任袁晓如老师及其团队合作,联合打造了业界首个数据“地形图”可视化展示技术。
传统的可视化大部分为表格或者单纯的词云分布,看不出数据集里数据的全貌,更看不到数据之间的关系。而此次联想和北大携手研发的数据“地形图”可视化展示技术,通过数据特征提取、可视化降维分析、高频词高频实体分析、数据高效检索、自动采样等技术,让数据以“地形图”的形式直接呈现在用户面前。有了“地形图”的指引,AI训练者可在海量数据间自由穿梭,高效快捷地了解数据、洞察数据背后的秘密。同时,该技术基于内置的层次化模型、渐进式文本标注框架和可视化系统,用户可根据需要逐级建立自己的分类,并形成对应的可视化视图,从而逐步探索自己的数据。
数据“地形图”中的每一个目标点即代表一条数据,海量数据显示时,会根据数据的分布密度自动进行下采样,采样后呈现的数据,依然保持数据集原有各区域的相对分布密度。通过对“地形图”的放大、缩小、漫游,可详细查看每一条数据。
“地形图”上点缀的一个个“地标”,是数据中出现的高频词和高频实体,根据统计频次和来源出处,高频词和高频实体以不同的大小形态和不同的地理位置在“地形图”上以词云形式展示。有了这些词云“地标”的指引,用户既能快速了解数据集中数据所属的大致领域、类型等,也可便捷查找到感兴趣的数据,从而在海量数据中漫步也不会迷路。
在地理学科中,有一个“等高线”的概念——把地面上海拔高度相同的点连成闭合曲线,并垂直投影到一个水平面上,再按比例缩绘在图纸上就获得了等高线。
等高线提供了关于地形的重要信息,包括地形的难易程度、山丘与洼地的区分、山脊和山谷的位置等。通过等高线,可以判断地形的陡峭或平缓。例如,等高线越密集,表示地形越陡峭;等高线越稀疏,则表示地形较为平缓。此外,等高线还能帮助识别特定的地形特征,如山头、洼地、鞍部、绝壁和悬崖等。
在我们的“地形图”上,也有条条“等高线”,但它们代表的是数据的分布密度,同一等高线覆盖区域数据的分布密度相同。每一条等高线围成的封闭区域,从某种粒度上属于同一“山系”,可以视为同一类型。中间最小一圈等高线为“山顶”,是数据密集区域,其中分布的数据均为对应类型的典型数据。对应不同山顶的最外围等高线之间为“山谷”,“山谷”中数据稀疏,而且其中的数据多为边缘数据,或者为跨类型数据。不论“山顶”还是“山谷”都有可能存在“宝藏数据”哦。为了方便从不同区域选取数据,“地形图”上还提供了套索和矩形选择工具,可从任意区域,以任意形状选取数据。
数据的分类维度是多样的,我们的“地形图”上还提供了交互式探索功能,用户通过选择或自定义不同的高频词和高频实体,从自己需要的维度,创建多种不同层级的不同类型。系统会自动从数据集中高效检索出包含相同或相似高频词、高频实体的数据,在“地形图”上进行独立展示,或者在原有底图上叠加展示,从而突出显示自己感兴趣的数据。
这种数据“地形图”可视化技术现在已经成为联想炼AI大师产品的一个功能。炼AI大师由联想研究院人工智能实验室打造,是联想AI发展的重要引擎,为联想自研AI算法的开发提供了重要支撑。它是一个专业的算力管理和一站式AI开发及运营平台,能够为AI专家提供灵活高效的算力管理功能,能为以数据为中心的开发者提供一整套数据可视化、清洗、标注、模型训练、压缩、蒸馏、评估、推理以及大模型应用等全链条服务。
炼AI大师已经在金融、制造、交通、教育等领域有实际落地案例,为客户在硬件算力和算法开发人员之间搭建了一座便捷的桥梁,成倍提升了客户算力的利用率,为客户开发用于自己业务的AI算法提供了有力支持,大幅提升了AI开发及运营效率。