From 5ba9ce6a04c8be6dc442ea6aae8ae742d0da41ce Mon Sep 17 00:00:00 2001
From: frankw <fwessels@xs4all.nl>
Date: Fri, 24 Jun 2016 22:38:20 +0200
Subject: [PATCH] G1 macro completed

---
 block.go         | 28 ++++++++++++++--------------
 compress_amd64.s |  8 ++++++++
 2 files changed, 22 insertions(+), 14 deletions(-)

diff --git a/block.go b/block.go
index f128849..fb7f59b 100644
--- a/block.go
+++ b/block.go
@@ -52,20 +52,20 @@ func blocks(d *digest, p []uint8) {
 		v9 += v13
 		v5 ^= v9
 		v5 = v5<<(64-24) | v5>>24
-		//v2 += m[4]
-		//v2 += v6
-		//v14 ^= v2
-		//v14 = v14<<(64-32) | v14>>32
-		//v10 += v14
-		//v6 ^= v10
-		//v6 = v6<<(64-24) | v6>>24
-		//v3 += m[6]
-		//v3 += v7
-		//v15 ^= v3
-		//v15 = v15<<(64-32) | v15>>32
-		//v11 += v15
-		//v7 ^= v11
-		//v7 = v7<<(64-24) | v7>>24
+		v2 += m[4]
+		v2 += v6
+		v14 ^= v2
+		v14 = v14<<(64-32) | v14>>32
+		v10 += v14
+		v6 ^= v10
+		v6 = v6<<(64-24) | v6>>24
+		v3 += m[6]
+		v3 += v7
+		v15 ^= v3
+		v15 = v15<<(64-32) | v15>>32
+		v11 += v15
+		v7 ^= v11
+		v7 = v7<<(64-24) | v7>>24
 		//v2 += m[5]
 		//v2 += v6
 		//v14 ^= v2
diff --git a/compress_amd64.s b/compress_amd64.s
index 57bdf22..eb9f2e9 100644
--- a/compress_amd64.s
+++ b/compress_amd64.s
@@ -51,6 +51,7 @@ TEXT ·compressSSE(SB), 7, $0
     MOVOU  32(DX), X14        // X14 = m[4]+m[5]
     MOVOU  48(DX), X15        // X15 = m[6]+m[7]
     BYTE $0xc4; BYTE $0x41; BYTE $0x19; BYTE $0x6c; BYTE $0xc5   // VPUNPCKLQDQ  XMM8, XMM12, XMM13  /* m[0], m[2] */
+    BYTE $0xc4; BYTE $0x41; BYTE $0x09; BYTE $0x6c; BYTE $0xcf   // VPUNPCKLQDQ  XMM9, XMM14, XMM15  /* m[4], m[6] */
 
     // Load shuffle value
     MOVQ   shffle+120(FP), SI // SI: &shuffle
@@ -58,12 +59,19 @@ TEXT ·compressSSE(SB), 7, $0
 
     // G1(row1l,row2l,row3l,row4l,row1h,row2h,row3h,row4h,b0,b1);
     BYTE $0xc4; BYTE $0xc1; BYTE $0x79; BYTE $0xd4; BYTE $0xc0   // VPADDQ  XMM0,XMM0,XMM8   /* v0 += m[0], v1 += m[2] */
+    BYTE $0xc4; BYTE $0xc1; BYTE $0x71; BYTE $0xd4; BYTE $0xc9   // VPADDQ  XMM1,XMM1,XMM9   /* v2 += m[4], v3 += m[6] */
     BYTE $0xc5; BYTE $0xf9; BYTE $0xd4; BYTE $0xc2               // VPADDQ  XMM0,XMM0,XMM2   /* v0 += v4, v1 += v5 */
+    BYTE $0xc5; BYTE $0xf1; BYTE $0xd4; BYTE $0xcb               // VPADDQ  XMM1,XMM1,XMM3   /* v2 += v6, v3 += v7 */
     BYTE $0xc5; BYTE $0xc9; BYTE $0xef; BYTE $0xf0               // VPXOR   XMM6,XMM6,XMM0   /* v12 ^= v0, v13 ^= v1 */
+    BYTE $0xc5; BYTE $0xc1; BYTE $0xef; BYTE $0xf9               // VPXOR   XMM7,XMM7,XMM1   /* v14 ^= v2, v15 ^= v3 */
     BYTE $0xc5; BYTE $0xf9; BYTE $0x70; BYTE $0xf6; BYTE $0xb1   // VPSHUFD XMM6,XMM6,0xb1   /* v12 = v12<<(64-32) | v12>>32, v13 = v13<<(64-32) | v13>>32 */
+    BYTE $0xc5; BYTE $0xf9; BYTE $0x70; BYTE $0xff; BYTE $0xb1   // VPSHUFD XMM7,XMM7,0xb1   /* v14 = v14<<(64-32) | v14>>32, v15 = v15<<(64-32) | v15>>32 */
     BYTE $0xc5; BYTE $0xd9; BYTE $0xd4; BYTE $0xe6               // VPADDQ  XMM4,XMM4,XMM6   /* v8 += v12, v9 += v13  */
+    BYTE $0xc5; BYTE $0xd1; BYTE $0xd4; BYTE $0xef               // VPADDQ  XMM5,XMM5,XMM7   /* v10 += v14, v11 += v15 */
     BYTE $0xc5; BYTE $0xe9; BYTE $0xef; BYTE $0xd4               // VPXOR   XMM2,XMM2,XMM4   /* v4 ^= v8, v5 ^= v9 */
+    BYTE $0xc5; BYTE $0xe1; BYTE $0xef; BYTE $0xdd               // VPXOR   XMM3,XMM3,XMM5   /* v6 ^= v10, v7 ^= v11 */
     BYTE $0xc4; BYTE $0xc2; BYTE $0x69; BYTE $0x00; BYTE $0xd4   // VPSHUFB XMM2,XMM2,XMM12  /* v4 = v4<<(64-24) | v4>>24, v5 = v5<<(64-24) | v5>>24 */
+    BYTE $0xc4; BYTE $0xc2; BYTE $0x61; BYTE $0x00; BYTE $0xdc   // VPSHUFB XMM3,XMM3,XMM12  /* v6 = v6<<(64-24) | v6>>24, v7 = v7<<(64-24) | v7>>24 */
 
     // Reload digest
     MOVQ   in+24(FP),  SI     // SI: &in