如何为机器学习直接编排数据
来源:资讯 2025年02月14日 12:17
之后,因为要使云驱动器上的原始数据与受训原始数据保证启动时,人工镜像原始数据既费时又容易错误。
法则二:从外部到访云驱动器
另一种类似的法则是将受训与远程驱动器上的远距离原始数据集从外部连接起来,如下左图所示。这种法则与早先的获取商一样,原始数据集的大小不是情况,但也接踵而来着一些在此之后终究。
首先,从I/O和管路的并不一定来看,原始数据是串行管控的。所有的原始数据到访操作方法都须要要经过单纯驱动器和受训战略性相互间的网路,使得I/O视作瓶颈。因此,由于I/O日均受到网路受限制,GPU都会赶紧并都会多余小时。
其次,当受训规模较大时,所有受训路由同时从同一个远程驱动器到访同一个原始数据集,给驱动器系统减小了很小的阻力。由于高并发到访,驱动器可能都会趋于拥挤,从而随之而来GPU能量消耗较低。
第三,如果原始数据集举例来说大量的小档案,元原始数据到访请求将九成原始数据请求的很小一外。因此,从外部从单纯驱动器之中赚取大量档案或第一版的元原始数据视作官能能瓶颈,并减小了元原始数据的操作方法成本高。
录用的法则——选曲原始数据为了应对这些终究和迷惑,在管控自然语言管控管路之中的I/O时,须要要重新有鉴于此原始数据平台的系统。在这里录用一种加速前端到前端自然语言管控管路的早先:原始数据选曲。原始数据选曲高高效率将包涵驱动器系统的原始数据到访一般解构,同时将所有原始数据COM,并通过基本API和全局命名空间将原始数据看出给原始数据驱动的应用程序。
(1)运用于直观独立原始数据不曾来世界
与其镜像和静止原始数据,转到来时也平庸大势,无论是在本地还是在云之中。原始数据选曲可以帮助直观原始数据以创建独立的视左图。这将值得注意降较低原始数据整理阶段性的有用官能。
由于原始数据选曲现在可以与驱动器系统功能强大,自然语言管控法则论只须要要与单个原始数据选曲平台交互亦可到访来自任何连接驱动器的原始数据。因此,来自任何是从的原始数据都可以用来受训,从而提高数学模型恒星质量。同时,无须要人工原始数据静止到之中央东光。之外Spark、Presto、PyTorch和TensorFlow在内的所有数值法则论都可以到访原始数据,而无须要责怪原始数据的位置。
(2)在原始数据本地官能方面运用于特有种式磁盘
同意不要将整个原始数据集镜像到每台电脑程式上,而是全面实施特有种式磁盘,其之中原始数据可以均匀特有种在战略性之中。当受训原始数据集远大于单个路由的驱动器容量时,特有种式磁盘更是有利。当原始数据是来自远程时,因为原始数据是在本地磁盘的,它也可以获取助益。因为在到访原始数据时从不曾网路I/O,自然语言管控受训都会趋于更加快且更加具成本高效益。
上左图显示了驱动器所有受训原始数据的单纯驱动器,以及问到原始数据集的两个档案(/path1/file1和/path2/file2)。与其将所有档案块驱动器在每台受训电脑程式上,不如将块特有种在多台电脑程式上。为了以防原始数据丢失和提高擦除并发官能,每个块可以同时驱动器在多个客户前端上。
(3)可用性包涵管路的原始数据共享
在自然语言管控(ML)受训发包之中,发包实际上和发包相互间分派的原始数据擦除和写入相互间存在高度重叠。原始数据共享可以保障所有数值法则论都可以到访先前磁盘的原始数据,用于下一步的读写监管工作负载。例如,如果在原始数据准备好方式中之中运用于Spark 进行时ETL,原始数据共享可以保障输出原始数据被磁盘并供人下一阶段性运用于。通过原始数据共享,整个原始数据管路给予了更加好的前端到前端官能能。
(4)通过有序解构原始数据亦同读取、磁盘和受训来选曲原始数据管路
可以通过分派亦同读取和按须要磁盘来选曲原始数据管路。如下左图显示,运用于原始数据磁盘从东光读取原始数据可以与实际受训护航有序完成。因此,在到访原始数据时,受训受益于高原始数据日均,而无须要在受训前赶紧磁盘明晰原始数据。
虽然一开始都会有一些I/O提早,但因为原始数据现在读取到磁盘之中,赶紧小时都会大大下降。这种法则可以下降反复方式中,从单纯驱动器到受训战略性的原始数据读取、磁盘、受训要求的原始数据读取以及受训都可以有序完成,从而大大加快整个更加进一步。
通过包涵自然语言管控管路的方式中选曲原始数据,可消除原始数据从一个阶段性流到下一个阶段性时串行分派和就其的较低效情况,同时也将不具备很较低的GPU能量消耗。下表将对这种早先与两种传统法则进行时比较:
如何为自然语言管控监管工作负载选曲原始数据这里以Alluxio为例,展示如何运用于原始数据选曲。比如说,我们还将运用于上面提到的一般解构桥段。为了特意TensorFlow发包,可运用于Kubernetes或公共云服务。
运用于Alluxio选曲自然语言管控和浅层学习受训不一定之外三个方式中:
(1)在受训战略性上调动Alluxio。
(2)可用Alluxio作为本地档案夹来受训发包。
(3)运用于受训脚本从本地档案夹(由Alluxio支持)读取原始数据。
不同驱动器系统之中的原始数据可以在可用后通过Alluxio立即到访,并且可以通过指标脚本薄膜到访,无须要修改TensorFlow。这值得注意一般解构了应用程序开发更加进一步,不然就须要要功能强大每个特定的驱动器系统以及凭证的备有。
可参照这里的法则运用于Alluxio和TensorFlow列车运行左图表识别。
原始数据选曲优秀实践因为从不曾一劳永逸的法则,所以原始数据选曲最好在以下桥段之中运用于:
须要要特有种式受训。 有大量的受训原始数据(10TB或更加多),更是是在受训原始数据之中有很多小档案和左图表的情况下。 GPU能东光从不曾被网路I/O充分九成用。 管路运用于许多原始PostgreSQL和多个受训/数值法则论。 当管控额外的受训请求时,底层驱动器须要要稳定。 多个受训路由或护航运用于相同的原始数据集。随着自然语言管控高高效率的随之工业发展,法则论分派更加有用的护航,监管原始数据管路的法则也将随之进步。通过将原始数据选曲集中于原始数据管路,前端到前端受训管路的高效率和能东光能量消耗都可以给与提高。
原文末尾:Orchestrating data for machine learning pipelines,所作:Bin Fan, InfoWorld
。郑州白癜风医院哪家治疗最好南京看男科去哪里最好
洛阳看男科哪个医院比较好
长春牛皮癣医院
重庆皮肤病
什么样的血糖仪好
瑞特血糖仪和罗氏血糖仪哪个好
复方鱼腥草合剂说明书
益生菌与肠炎宁颗粒哪个好
胃酸烧心吃金奥康奥美拉唑有效吗
-
ABB:将为提供非常简单的电动汽车充电解决方案
【环球网新能源综合华盛顿邮报】5月初7日消息,近日,ABB电动公路交通与签署了一项取而代之世界性框架贸易协定。根据贸易协定,ABB将为获取端到端的文化交流和直流电源产品组合。据了解,这一电源产