ML机器学习：了解数据处理

2021年5月4日23:06:03 发表评论 1,268 次浏览

数据处理是将数据从给定格式转换为更加有用和期望的格式的任务, 即使其更有意义和更有意义。使用机器学习算法, 数学建模和统计知识, 可以使整个过程自动化。根据我们正在执行的任务和机器的要求, 此完整过程的输出可以采用任何所需的形式, 例如图形, 视频, 图表, 表格, 图像等。这似乎很简单, 但是当涉及到像Twitter, Facebook, Paliament, UNESCO和卫生部门组织这样的大型组织时, 整个过程需要以结构化的方式进行。因此, 要执行的步骤如下：

集合：
开始使用ML时, 最关键的步骤是拥有高质量和准确性的数据。可以从任何经过身份验证的来源收集数据, 例如data.gov.in, 卡格勒orUCI数据集存储库例如, 在准备竞争性考试时, 学生将从他们可以访问的最佳学习材料中学习, 从而学习到最好的方法以获得最佳结果。同样, 高质量, 准确的数据将使模型的学习过程变得更加轻松, 更好, 并且在测试时, 该模型将产生最先进的结果。
收集数据会消耗大量的资金, 时间和资源。组织或研究人员必须决定执行任务或研究所需的数据类型。
示例：使用面部表情识别器, 需要大量具有多种人类表情的图像。良好的数据可确保模型的结果有效并值得信赖。
准备：
收集的数据可以是原始格式, 不能直接输入到计算机中。因此, 这是一个从不同来源收集数据集, 分析这些数据集, 然后构建新的数据集以进行进一步处理和探索的过程。可以手动或从自动方法进行此准备。数据也可以以数字形式准备, 这也可以加快模型的学习速度。
例子：图像可以转换为N X N尺寸的矩阵, 每个像元的值将指示图像像素。
输入：
现在, 准备好的数据可以采用机器无法读取的形式, 因此要将这些数据转换为可读形式, 需要一些转换算法。为了执行该任务, 需要高计算量和准确性。示例：可以通过MNIST Digit数据(图像), Twitter评论, 音频文件, 视频剪辑等来源收集数据。
加工方式：
在此阶段, 需要算法和ML技术来以准确和最佳计算的方式执行大量数据上提供的指令。
输出：
在此阶段, 结果由机器以有意义的方式获得, 用户可以轻松推断出结果。输出可以是报告, 图形, 视频等形式
储存方式：
这是最后一步, 其中将获取的输出和数据模型数据以及所有有用的信息保存起来, 以备将来使用。

发表评论取消回复

登录 注册 找回密码

登录注册找回密码