Google Dataset Search
Google Dataset Search 索引了超过 4500 万个数据集,来自 13000 个不同的来源。这些数据集涵盖了多个学科领域,包括环境科学、社会科学、政府数据、新闻机构数据等
目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,目前市面上也有比较多成熟的工具,比较难的是前期的数据集准备的环节,数据集的质量直接决定了模型微调后的效果,高质量领域数据集的构建始终面临多重挑战,大家在构建数据集的过程中可能会普遍遇到以下问题:
为了解决这些问题,Easy DataSet 应运而生,通过系统性解决方案实现从文献解析到数据集构造、标注、导出、评估的全流程闭环,以下是工具预期要解决的问题: