mirror of
https://github.com/fumiama/blake2b-simd.git
synced 2026-06-10 04:50:30 +08:00
Round 1 completed
This commit is contained in:
@@ -33,8 +33,6 @@ func TestCompress(t *testing.T) {
|
|||||||
|
|
||||||
hGo.Write(in)
|
hGo.Write(in)
|
||||||
sumGo := fmt.Sprintf("%x", hGo.Sum(nil))
|
sumGo := fmt.Sprintf("%x", hGo.Sum(nil))
|
||||||
// Digest for testing obtained from modified codahale/blake2
|
|
||||||
sumGo = "1f911baeebab14535c9e20b7d7edbe9fab64b6cc82be0cf0561fd3427dd100cc3110dd47fe789941e583313d773c7859cb6266c886cf0f8e98da11a4926c06c3"
|
|
||||||
|
|
||||||
hSSE.Write(in)
|
hSSE.Write(in)
|
||||||
sumSSE := fmt.Sprintf("%x", hSSE.Sum(nil))
|
sumSSE := fmt.Sprintf("%x", hSSE.Sum(nil))
|
||||||
|
|||||||
114
block.go
114
block.go
@@ -94,63 +94,63 @@ func blocks(d *digest, p []uint8) {
|
|||||||
v8 += v12
|
v8 += v12
|
||||||
v4 ^= v8
|
v4 ^= v8
|
||||||
v4 = v4<<(64-63) | v4>>63
|
v4 = v4<<(64-63) | v4>>63
|
||||||
//v0 += m[8]
|
v0 += m[8]
|
||||||
//v0 += v5
|
v0 += v5
|
||||||
//v15 ^= v0
|
v15 ^= v0
|
||||||
//v15 = v15<<(64-32) | v15>>32
|
v15 = v15<<(64-32) | v15>>32
|
||||||
//v10 += v15
|
v10 += v15
|
||||||
//v5 ^= v10
|
v5 ^= v10
|
||||||
//v5 = v5<<(64-24) | v5>>24
|
v5 = v5<<(64-24) | v5>>24
|
||||||
//v1 += m[10]
|
v1 += m[10]
|
||||||
//v1 += v6
|
v1 += v6
|
||||||
//v12 ^= v1
|
v12 ^= v1
|
||||||
//v12 = v12<<(64-32) | v12>>32
|
v12 = v12<<(64-32) | v12>>32
|
||||||
//v11 += v12
|
v11 += v12
|
||||||
//v6 ^= v11
|
v6 ^= v11
|
||||||
//v6 = v6<<(64-24) | v6>>24
|
v6 = v6<<(64-24) | v6>>24
|
||||||
//v2 += m[12]
|
v2 += m[12]
|
||||||
//v2 += v7
|
v2 += v7
|
||||||
//v13 ^= v2
|
v13 ^= v2
|
||||||
//v13 = v13<<(64-32) | v13>>32
|
v13 = v13<<(64-32) | v13>>32
|
||||||
//v8 += v13
|
v8 += v13
|
||||||
//v7 ^= v8
|
v7 ^= v8
|
||||||
//v7 = v7<<(64-24) | v7>>24
|
v7 = v7<<(64-24) | v7>>24
|
||||||
//v3 += m[14]
|
v3 += m[14]
|
||||||
//v3 += v4
|
v3 += v4
|
||||||
//v14 ^= v3
|
v14 ^= v3
|
||||||
//v14 = v14<<(64-32) | v14>>32
|
v14 = v14<<(64-32) | v14>>32
|
||||||
//v9 += v14
|
v9 += v14
|
||||||
//v4 ^= v9
|
v4 ^= v9
|
||||||
//v4 = v4<<(64-24) | v4>>24
|
v4 = v4<<(64-24) | v4>>24
|
||||||
//v2 += m[13]
|
v2 += m[13]
|
||||||
//v2 += v7
|
v2 += v7
|
||||||
//v13 ^= v2
|
v13 ^= v2
|
||||||
//v13 = v13<<(64-16) | v13>>16
|
v13 = v13<<(64-16) | v13>>16
|
||||||
//v8 += v13
|
v8 += v13
|
||||||
//v7 ^= v8
|
v7 ^= v8
|
||||||
//v7 = v7<<(64-63) | v7>>63
|
v7 = v7<<(64-63) | v7>>63
|
||||||
//v3 += m[15]
|
v3 += m[15]
|
||||||
//v3 += v4
|
v3 += v4
|
||||||
//v14 ^= v3
|
v14 ^= v3
|
||||||
//v14 = v14<<(64-16) | v14>>16
|
v14 = v14<<(64-16) | v14>>16
|
||||||
//v9 += v14
|
v9 += v14
|
||||||
//v4 ^= v9
|
v4 ^= v9
|
||||||
//v4 = v4<<(64-63) | v4>>63
|
v4 = v4<<(64-63) | v4>>63
|
||||||
//v1 += m[11]
|
v1 += m[11]
|
||||||
//v1 += v6
|
v1 += v6
|
||||||
//v12 ^= v1
|
v12 ^= v1
|
||||||
//v12 = v12<<(64-16) | v12>>16
|
v12 = v12<<(64-16) | v12>>16
|
||||||
//v11 += v12
|
v11 += v12
|
||||||
//v6 ^= v11
|
v6 ^= v11
|
||||||
//v6 = v6<<(64-63) | v6>>63
|
v6 = v6<<(64-63) | v6>>63
|
||||||
//v0 += m[9]
|
v0 += m[9]
|
||||||
//v0 += v5
|
v0 += v5
|
||||||
//v15 ^= v0
|
v15 ^= v0
|
||||||
//v15 = v15<<(64-16) | v15>>16
|
v15 = v15<<(64-16) | v15>>16
|
||||||
//v10 += v15
|
v10 += v15
|
||||||
//v5 ^= v10
|
v5 ^= v10
|
||||||
//v5 = v5<<(64-63) | v5>>63
|
v5 = v5<<(64-63) | v5>>63
|
||||||
//
|
|
||||||
//// Round 2.
|
//// Round 2.
|
||||||
//v0 += m[14]
|
//v0 += m[14]
|
||||||
//v0 += v4
|
//v0 += v4
|
||||||
|
|||||||
@@ -156,6 +156,8 @@ TEXT ·compressSSE(SB), 7, $0
|
|||||||
MOVOU 112(DX), X15 // X15 = m[14]+m[15]
|
MOVOU 112(DX), X15 // X15 = m[14]+m[15]
|
||||||
BYTE $0xc4; BYTE $0x41; BYTE $0x19; BYTE $0x6c; BYTE $0xc5 // VPUNPCKLQDQ XMM8, XMM12, XMM13 /* m[8],m[10] */
|
BYTE $0xc4; BYTE $0x41; BYTE $0x19; BYTE $0x6c; BYTE $0xc5 // VPUNPCKLQDQ XMM8, XMM12, XMM13 /* m[8],m[10] */
|
||||||
BYTE $0xc4; BYTE $0x41; BYTE $0x09; BYTE $0x6c; BYTE $0xcf // VPUNPCKLQDQ XMM9, XMM14, XMM15 /* m[12],m[14] */
|
BYTE $0xc4; BYTE $0x41; BYTE $0x09; BYTE $0x6c; BYTE $0xcf // VPUNPCKLQDQ XMM9, XMM14, XMM15 /* m[12],m[14] */
|
||||||
|
BYTE $0xc4; BYTE $0x41; BYTE $0x19; BYTE $0x6d; BYTE $0xd5 // VPUNPCKHQDQ XMM10, XMM12, XMM13 /* m[9],m[11] */
|
||||||
|
BYTE $0xc4; BYTE $0x41; BYTE $0x09; BYTE $0x6d; BYTE $0xdf // VPUNPCKHQDQ XMM11, XMM14, XMM15 /* m[13],m[15] */
|
||||||
|
|
||||||
// Load shuffle value
|
// Load shuffle value
|
||||||
MOVQ shffle+120(FP), SI // SI: &shuffle
|
MOVQ shffle+120(FP), SI // SI: &shuffle
|
||||||
@@ -177,6 +179,28 @@ TEXT ·compressSSE(SB), 7, $0
|
|||||||
BYTE $0xc4; BYTE $0xc2; BYTE $0x69; BYTE $0x00; BYTE $0xd4 // VPSHUFB XMM2,XMM2,XMM12 /* v4 = v4<<(64-24) | v4>>24, v5 = v5<<(64-24) | v5>>24 */
|
BYTE $0xc4; BYTE $0xc2; BYTE $0x69; BYTE $0x00; BYTE $0xd4 // VPSHUFB XMM2,XMM2,XMM12 /* v4 = v4<<(64-24) | v4>>24, v5 = v5<<(64-24) | v5>>24 */
|
||||||
BYTE $0xc4; BYTE $0xc2; BYTE $0x61; BYTE $0x00; BYTE $0xdc // VPSHUFB XMM3,XMM3,XMM12 /* v6 = v6<<(64-24) | v6>>24, v7 = v7<<(64-24) | v7>>24 */
|
BYTE $0xc4; BYTE $0xc2; BYTE $0x61; BYTE $0x00; BYTE $0xdc // VPSHUFB XMM3,XMM3,XMM12 /* v6 = v6<<(64-24) | v6>>24, v7 = v7<<(64-24) | v7>>24 */
|
||||||
|
|
||||||
|
// G2(row1l,row2l,row3l,row4l,row1h,row2h,row3h,row4h,b0,b1);
|
||||||
|
BYTE $0xc4; BYTE $0xc1; BYTE $0x79; BYTE $0xd4; BYTE $0xc2 // VPADDQ XMM0,XMM0,XMM10 /* v0 += m[9], v1 += m[11] */
|
||||||
|
BYTE $0xc4; BYTE $0xc1; BYTE $0x71; BYTE $0xd4; BYTE $0xcb // VPADDQ XMM1,XMM1,XMM11 /* v2 += m[13], v3 += m[15] */
|
||||||
|
BYTE $0xc5; BYTE $0xf9; BYTE $0xd4; BYTE $0xc2 // VPADDQ XMM0,XMM0,XMM2 /* v0 += v4, v1 += v5 */
|
||||||
|
BYTE $0xc5; BYTE $0xf1; BYTE $0xd4; BYTE $0xcb // VPADDQ XMM1,XMM1,XMM3 /* v2 += v6, v3 += v7 */
|
||||||
|
BYTE $0xc5; BYTE $0xc9; BYTE $0xef; BYTE $0xf0 // VPXOR XMM6,XMM6,XMM0 /* v12 ^= v0, v13 ^= v1 */
|
||||||
|
BYTE $0xc5; BYTE $0xc1; BYTE $0xef; BYTE $0xf9 // VPXOR XMM7,XMM7,XMM1 /* v14 ^= v2, v15 ^= v3 */
|
||||||
|
BYTE $0xc5; BYTE $0xfb; BYTE $0x70; BYTE $0xf6; BYTE $0x39 // VPSHUFLW XMM6,XMM6,0x39 /* combined with next ... */
|
||||||
|
BYTE $0xc5; BYTE $0xfa; BYTE $0x70; BYTE $0xf6; BYTE $0x39 // VPSHUFHW XMM6,XMM6,0x39 /* v12 = v12<<(64-16) | v12>>16, v13 = v13<<(64-16) | v13>>16 */
|
||||||
|
BYTE $0xc5; BYTE $0xfb; BYTE $0x70; BYTE $0xff; BYTE $0x39 // VPSHUFLW XMM7,XMM7,0x39 /* combined with next ... */
|
||||||
|
BYTE $0xc5; BYTE $0xfa; BYTE $0x70; BYTE $0xff; BYTE $0x39 // VPSHUFHW XMM7,XMM7,0x39 /* v14 = v14<<(64-16) | v14>>16, v15 = v15<<(64-16) | v15>>16 */
|
||||||
|
BYTE $0xc5; BYTE $0xd9; BYTE $0xd4; BYTE $0xe6 // VPADDQ XMM4,XMM4,XMM6 /* v8 += v12, v9 += v13 */
|
||||||
|
BYTE $0xc5; BYTE $0xd1; BYTE $0xd4; BYTE $0xef // VPADDQ XMM5,XMM5,XMM7 /* v10 += v14, v11 += v15 */
|
||||||
|
BYTE $0xc5; BYTE $0xe9; BYTE $0xef; BYTE $0xd4 // VPXOR XMM2,XMM2,XMM4 /* v4 ^= v8, v5 ^= v9 */
|
||||||
|
BYTE $0xc5; BYTE $0xe1; BYTE $0xef; BYTE $0xdd // VPXOR XMM3,XMM3,XMM5 /* v6 ^= v10, v7 ^= v11 */
|
||||||
|
BYTE $0xc5; BYTE $0x69; BYTE $0xd4; BYTE $0xfa // VPADDQ XMM15,XMM2,XMM2 /* temp reg = reg*2 */
|
||||||
|
BYTE $0xc5; BYTE $0xe9; BYTE $0x73; BYTE $0xd2; BYTE $0x3f // VPSRLQ XMM2,XMM2,0x3f /* reg = reg>>63 */
|
||||||
|
BYTE $0xc4; BYTE $0xc1; BYTE $0x69; BYTE $0xef; BYTE $0xd7 // VPXOR XMM2,XMM2,XMM15 /* ORed together: v4 = v4<<(64-63) | v4>>63, v5 = v5<<(64-63) | v5>>63 */
|
||||||
|
BYTE $0xc5; BYTE $0x61; BYTE $0xd4; BYTE $0xfb // VPADDQ XMM15,XMM3,XMM3 /* temp reg = reg*2 */
|
||||||
|
BYTE $0xc5; BYTE $0xe1; BYTE $0x73; BYTE $0xd3; BYTE $0x3f // VPSRLQ XMM3,XMM3,0x3f /* reg = reg>>63 */
|
||||||
|
BYTE $0xc4; BYTE $0xc1; BYTE $0x61; BYTE $0xef; BYTE $0xdf // VPXOR XMM3,XMM3,XMM15 /* ORed together: v6 = v6<<(64-63) | v6>>63, v7 = v7<<(64-63) | v7>>63 */
|
||||||
|
|
||||||
// UNDIAGONALIZE(row1l,row2l,row3l,row4l,row1h,row2h,row3h,row4h);
|
// UNDIAGONALIZE(row1l,row2l,row3l,row4l,row1h,row2h,row3h,row4h);
|
||||||
MOVOU X4, X13 /* t0 = row3l;\ */
|
MOVOU X4, X13 /* t0 = row3l;\ */
|
||||||
MOVOU X5, X4 /* row3l = row3h;\ */
|
MOVOU X5, X4 /* row3l = row3h;\ */
|
||||||
|
|||||||
Reference in New Issue
Block a user