意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

Python中借助Ray实现分布式计算怎样做

来源:恒创科技 编辑:恒创科技编辑部
2024-01-01 15:29:59
今天就跟大家聊聊有关“Python中借助Ray实现分布式计算怎样做”的内容,可能很多人都不太了解,为了让大家认识和更进一步的了解,小编给大家总结了以下内容,希望这篇“Python中借助Ray实现分布式计算怎样做”文章能对大家有帮助。
 



Python中借助Ray实现分布式计算怎样做

面对计算密集型的任务,除了多进程,就是分布式计算,如何用 Python 实现分布式计算呢?今天分享一个很简单的方法,那就是借助于 Ray。

什么是 Ray

Ray 是基于 Python 的分布式计算框架,采用动态图计算模型,提供简单、通用的 API 来创建分布式应用。使用起来很方便,你可以通过装饰器的方式,仅需修改极少的的代码,让原本运行在单机的 Python 代码轻松实现分布式计算,目前多用于机器学习。

Ray 的特色:

1、提供用于构建和运行分布式应用程序的简单原语。 2、使用户能够并行化单机代码,代码更改很少甚至为零。 3、Ray Core 包括一个由应用程序、库和工具组成的大型生态系统,以支持复杂的应用程序。比如 Tune、RLlib、RaySGD、Serve、Datasets、Workflows。

安装 Ray

最简单的安装官方版本的方式:

pipinstall-Uray
pipinstall'ray[default]'

如果是 Windows 系统,要求必须安装Visual C++ runtime

使用 Ray

一个装饰器就搞定分布式计算:

importray
ray.init()
@ray.remote
deff(x):
returnx*x
futures=[f.remote(i)foriinrange(4)]
print(ray.get(futures))#[0,1,4,9]

先执行ray.init(),然后在要执行分布式任务的函数前加一个装饰器@ray.remote就实现了分布式计算。装饰器@ray.remote也可以装饰一个类:

importray
ray.init()

@ray.remote
classCounter(object):
def__init__(self):
self.n=0
defincrement(self):
self.n+=1
defread(self):
returnself.n
counters=[Counter.remote()foriinrange(4)]
tmp1=[c.increment.remote()forcincounters]
tmp2=[c.increment.remote()forcincounters]
tmp3=[c.increment.remote()forcincounters]
futures=[c.read.remote()forcincounters]
print(ray.get(futures))#[3,3,3,3]

当然了,上述的分布式计算依然是在自己的电脑上进行的,只不过是以分布式的形式。程序执行的过程中,你可以输入http://127.0.0.1:8265/#/查看分布式任务的执行情况:

那么如何实现 Ray 集群计算呢?接着往下看。

使用 Ray 集群

Ray 的优势之一是能够在同一程序中利用多台机器。当然,Ray 可以在一台机器上运行,因为通常情况下,你只有一台机器。但真正的力量是在一组机器上使用 Ray。

Ray 集群由一个头节点和一组工作节点组成。需要先启动头节点,给 worker 节点赋予头节点地址,组成集群:

你可以使用 Ray Cluster Launcher 来配置机器并启动多节点 Ray 集群。你可以在 AWS、GCP、Azure、Kubernetes、阿里云、内部部署和 Staroid 上甚至在你的自定义节点提供商上使用集群启动器。

Ray 集群还可以利用 Ray Autoscaler,它允许 Ray 与云提供商交互,以根据规范和应用程序工作负载请求或发布实例。

现在,我们来快速演示下 Ray 集群的功能,这里是用 Docker 来启动两个 Ubuntu 容器来模拟集群:

环境 1: 172.17.0.2 作为 head 节点 环境 2: 172.17.0.3 作为 worker 节点,可以有多个 worker 节点

具体步骤:

1. 下载 ubuntu 镜像

dockerpullubuntu

2. 启动 ubuntu 容器,安装依赖

启动第一个

dockerrun-it--nameubuntu-01ubuntubash

启动第二个

dockerrun-it--nameubuntu-02ubuntubash

检查下它们的 IP 地址:

$dockerinspect-f"{{.NetworkSettings.IPAddress}}"ubuntu-01
172.17.0.2
$dockerinspect-f"{{.NetworkSettings.IPAddress}}"ubuntu-02
172.17.0.3

然后分别在容器内部安装 python、pip、ray

aptupdate&&aptinstallpython3
aptinstallpython3-pip
pip3installray

3. 启动 head 节点和 worker 节点

选择在其中一个容器作为 head 节点,这里选择 172.17.0.2,执行:

raystart--head--node-ip-address172.17.0.2

默认端口是 6379,你可以使用--port参数来修改默认端口,启动后的结果如下:

忽略掉警告,可以看到给出了一个提示,如果要把其他节点绑定到该 head,可以这样:

raystart--address='172.17.0.2:6379'--redis-password='5241590000000000'

在另一个节点执行上述命令,即可启动 worker 节点:

如果要关闭,执行:

raystop

4、执行任务

随便选择一个节点,执行下面的脚本,修改下 ray.init() 函数的参数:

fromcollectionsimportCounter
importsocket
importtime
importray
ray.init(address='172.17.0.2:6379',_redis_password='5241590000000000')

print('''Thisclusterconsistsof
{}nodesintotal
{}CPUresourcesintotal
'''.format(len(ray.nodes()),ray.cluster_resources()['CPU']))
@ray.remote
deff():
time.sleep(0.001)
#ReturnIPaddress.
returnsocket.gethostbyname(socket.gethostname())
object_ids=[f.remote()for_inrange(10000)]
ip_addresses=ray.get(object_ids)
print('Tasksexecuted')
forip_address,num_tasksinCounter(ip_addresses).items():
print('{}taskson{}'.format(num_tasks,ip_address))

执行结果如下:

可以看到 172.17.0.2 执行了 4751 个任务,172.17.0.3 执行了 5249 个任务,实现了分布式计算的效果。

总结

有了 Ray,你可以不使用 Python 的多进程就可以实现并行计算。今天的机器学习主要就是计算密集型任务,不借助分布式计算速度会非常慢,Ray 提供了简单实现分布式计算的解决方案。


以上就是关于“Python中借助Ray实现分布式计算怎样做”的介绍了,感谢各位的阅读,如果大家想要了解更多相关的内容,欢迎关注恒创科技,小编每天都会为大家更新不同的知识。
上一篇: Python自定义函数的相关知识有哪些 下一篇: PyTorch卷积神经网络的重要基础函数有哪些