Cython 0.15,用 OpenMP 并行多核加速 Python!

标签: cython openmp 并行 | 发表时间:2011-08-09 00:50 | 作者:lanphaday QQ
出处:http://blog.csdn.net/lanphaday

赖勇浩(http://laiyonghao.com

注:
0、读懂这篇文章需要了解 OpenMP 基本用法。
1、读懂这篇文章需要了解 GIL 基本概念。
2、基本上是这篇的翻译:http://docs.cython.org/src/userguide/parallelism.html,标题是我自己取的,如有错漏、不明,敬请参详原文。
3、本篇不是使用 cython.parallel 的指南(或手册),仅作信息传播之用。
4、我之前翻译过一篇文章《OpenMP与C++:事半功倍地获得多线程的好处》有助于理解这篇文章,见:上(http://blog.csdn.net/lanphaday/article/details/1503817),下(http://blog.csdn.net/lanphaday/article/details/1507834)。

Cython 0.15 新增了 cython.parallel 模块,实现对原生并行编程的支持。现在只支持 OpenMP,以后会加入更多的后端支持。需要注意的是并行是运行在释放了 GIL 的环境下的。

cython.parallel.prange([start], stop[, step], nogil=False, schedule=None)

此函数并行循环,OpenMP 自动构建线程池,并根据指定的调度方案分派作业给这些线程。step 参数不可为 0,如果 nogil 参数为 true,那么这个循环就会被包装在一个 nogil 环境中。shedule 参数支持 static/dynamic/guided/auto/runtime 等 OpenMP 中定义的调度机制。
thread-locality 和 reduction 是从变量进来推断决定的。在 prange 块中被赋值的变量,会被看作 lastprivate,意思是这个变量的值会是最后一次迭代的值。如果对变量使用了原地操作符,那它会被看作 reduction,意思是每条线程都拷贝了一个私有变量,然后在循环结束后应用这个操作符,并赋值给原来的变量。索引变量总是 lastprivate,而在并行块中被赋值的变量都会被看作 private,而且在离开并行块后不可用,因为无法确定它的最后的值。(译注:对这两段理解不能的话,需要阅读 OpenMP 相关文档)。
下面是一个关于 reduction 的例子:

from cython.parallel import prange, parallel, threadid

cdef int i
cdef int sum = 0

for i in prange(n, nogil=True):
    sum += i

print sum
再来一个共享 numpy 数组的例子:
from cython.parallel import *

def func(np.ndarray[double] x, double alpha):
    cdef Py_ssize_t i

    for i in prange(x.shape[0]):
        x[i] = alpha * x[i]

cython.parallel.parallel()

可以在 with 语句中使用这个指令来实现代码序列的并行执行。这在为 prange 准备 thread-local 的缓冲区时非常有用。内含的 prange 将成为不并行的工作共享循环,所以一切在并行 section 中被赋值的变量在 prange 中也是 private。所有并行块中的 private 变量在离开并行块后都不可用。
thread-local 缓冲的例子:

from cython.parallel import *
from libc.stdlib cimport abort, malloc, free

cdef Py_ssize_t idx, i, n = 100
cdef int * local_buf
cdef size_t size = 10

with nogil, parallel():
    local_buf = <int *> malloc(sizeof(int) * size)
    if local_buf == NULL:
        abort()

    # populate our local buffer in a sequential loop
    for idx in range(size):
        local_buf[i] = i * 2

    # share the work using the thread-local buffer(s)
    for i in prange(n, schedule='guided'):
        func(local_buf)

    free(local_buf)
以后 sections 将支持并行块,这样可以把 sections 的代码分配给多个线程执行。

cython.parallel.threadid()

返回线程 ID,对于 n 个线程,它们的 ID 范围是 [0, n)。

编译

要启用 OpenMP 支持,需要把 C 或 C++ 编译器的 OpenMP 开关打开,gcc 适用的 setup.py 如下:

from distutils.core import setup
from distutils.extension import Extension
from Cython.Distutils import build_ext

ext_module = Extension(
    "hello",
    ["hello.pyx"],
    extra_compile_args=['-fopenmp'],
    extra_link_args=['-fopenmp'],
)

setup(
    name = 'Hello world app',
    cmdclass = {'build_ext': build_ext},
    ext_modules = [ext_module],
)

打断

nogil 模式下的并行的 with 和 prange 块支持 break、continue 和 return。此外,还能够在这些块中使用 with gil 块,也可以抛出异常。但是,因为使用了 OpenMP,不能跳出了事,最好还是退出程序。以 prange() 为例,在第一次 return、break 或抛出异常后,所有线程的每一次循环都会跳过。所以如果有多个值应当返回时该返回哪个值是没有定义的,因为迭代本身是没有特定的顺序的:

from cython.parallel import prange

cdef int func(Py_ssize_t n):
    cdef Py_ssize_t i

    for i in prange(n, nogil=True):
        if i == 8:
            with gil:
                raise Exception()
        elif i == 4:
            break
        elif i == 2:
            return i
上例中到底是抛出异常,还是简单地 break 又或者返回 2,是没有定义的(不确定的)。

嵌套并行

因为 gcc 的一个 bug,现在嵌套并行被禁用掉了,不过,你可以在一个并行段中调用含有并行段的函数。

参考资料

[1] http://www.openmp.org/mp-documents/spec30.pdf
[2] http://gcc.gnu.org/bugzilla/show_bug.cgi?id=49897


作者:lanphaday 发表于2011-8-8 17:50:02 原文链接
阅读:3027 评论:1 查看评论

相关 [cython openmp 并行] 推荐:

Cython 0.15,用 OpenMP 并行多核加速 Python!

- QQ - 赖勇浩的编程私伙局
赖勇浩(http://laiyonghao.com). 0、读懂这篇文章需要了解 OpenMP 基本用法. 1、读懂这篇文章需要了解 GIL 基本概念. 2、基本上是这篇的翻译:http://docs.cython.org/src/userguide/parallelism.html,标题是我自己取的,如有错漏、不明,敬请参详原文.

并行计算的解药

- chengdujin - 牛博山寨 编辑推荐
前几天看到 reddit.com 的 programming 类别第一名是《 Parallelism is Not Concurrency 》. 读完之后发现和我去年的《多核与锁》有很多观点上的共通之处. 《 Parallelism is Not Concurrency 》的开篇行文更流畅幽默,对并发( concurrency )和并行( parallelism )有更精辟的总结.

并行编程中的“锁”难题

- Guancheng(冠诚) - 并行实验室 | Parallel Labs
注:本文发表于《程序员》2011年第8期并行编程专栏,略有删改. 在并行程序中,锁的使用会主要会引发两类难题:一类是诸如死锁、活锁等引起的多线程Bug;另一类是由锁竞争引起的性能瓶颈. 本文将介绍并行编程中因为锁引发的这两类难题及其解决方案. 在进行并行编程时,我们常常需要使用锁来保护共享变量,以防止多个线程同时对该变量进行更新时产生数据竞跑(Data Race).

大规模并行处理系统 Greenplum

- Le - 开源中国社区最新软件
Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司. Greenplum的架构采用了MPP(大规模并行处理). 在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等.

几种web并行化编程实现

- - CSDN博客架构设计推荐文章
    当网站做到一定规模的时候,web单个页面需要涉及到的业务也会越来越多,每个页面可能会向后端发起几个、十几个甚至几十个请求. 对于java、python之类的支持多线程的语言可以使用多线程编程,但也会增加程序的复杂性,像php这样的不支持多线程的语言只能借助其他方法实现并行,下面总结几种比较实用的并行化框架.

js并行加载,顺序执行

- - JavaScript - Web前端 - ITeye博客