/perf/kseta

To get this branch, use:
bzr branch http://darksoft.org/webbzr/perf/kseta

« back to all changes in this revision

Viewing changes to sources/mm/opencl3.cl

  • Committer: Suren A. Chilingaryan
  • Date: 2013-09-30 06:47:09 UTC
  • Revision ID: csa@dside.dyndns.org-20130930064709-55cde0k5ci76t8z5
Simple matrix multiplication

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#define A(i, j) shmem[(i) * PPT * BLOCK_SIZE + (j)]
 
2
#define B(i, j) shmem[PPT * PPT * BLOCK_SIZE * BLOCK_SIZE + (i) * PPT * BLOCK_SIZE + (j)]
 
3
 
 
4
__kernel void multiply(__global float *res, __global float *a, __global float *b, unsigned long size, __local float *shmem) {
 
5
    float sum[PPT][PPT] = {0};
 
6
    
 
7
    int tx = get_local_id(0);
 
8
    int ty = get_local_id(1);
 
9
 
 
10
    int i = get_global_id(1);
 
11
    int j = get_global_id(0);
 
12
 
 
13
    int x, y;
 
14
    int k, l;
 
15
 
 
16
    for(k = 0; k < size; k += PPT * BLOCK_SIZE) {
 
17
#pragma unroll PPT
 
18
        for (y = 0; y < PPT; ++y) {
 
19
#pragma unroll PPT
 
20
            for (x = 0; x < PPT; ++x) {
 
21
                A(ty * PPT + y, tx * PPT + x) = a[(i * PPT + y) * size + (k + tx * PPT + x)];
 
22
                B(ty * PPT + y, tx * PPT + x) = b[(k + ty * PPT + y) * size + (j * PPT + x)];
 
23
            }
 
24
        }
 
25
        
 
26
        barrier(CLK_LOCAL_MEM_FENCE);
 
27
        
 
28
#pragma unroll PPT * BLOCK_SIZE
 
29
        for (l = 0; l < PPT * BLOCK_SIZE; ++l) {
 
30
#pragma unroll PPT
 
31
            for (y = 0; y < PPT; ++y) {
 
32
#pragma unroll PPT
 
33
                for (x = 0; x < PPT; ++x) {
 
34
                    sum[y][x]  += A(ty * PPT + y, l) * B(l, tx * PPT + x);
 
35
//                  sum[y][x]  += A(ty * PPT + y, l) * b[(k + l) * size + (j * PPT + x)];
 
36
//                  sum[y][x]  += a[(i * PPT + y) * size + (k + l)] * b[(k + l) * size + (j * PPT + x)];
 
37
                }
 
38
            }
 
39
        }
 
40
 
 
41
        barrier(CLK_LOCAL_MEM_FENCE);
 
42
    }
 
43
    
 
44
#pragma unroll PPT
 
45
        for (y = 0; y < PPT; ++y) {
 
46
#pragma unroll PPT
 
47
            for (x = 0; x < PPT; ++x) {
 
48
                res[(i * PPT + y) * size + j * PPT + x] = sum[y][x];
 
49
            }
 
50
        }
 
51
}