[In-Progress] Add per tick memory stats to redisai_vision runner. (#61)

filipecosta90 · web-flow · commit 5b407e1a8f36 · 2021-03-22T18:15:42.000Z
* [add] Added per tick memory stats to redisai_vision runner. Exporting that info on the results json

* [add] Added script to post process server start results
diff --git a/cmd/aibench_run_inference_redisai_vision/main.go b/cmd/aibench_run_inference_redisai_vision/main.go
@@ -144,12 +144,14 @@ func (p *Processor) CollectRunTimeMetrics() (ts int64, stats interface{}, err er
 		var aicpu_rcv string
 		var aiinfo_rcv []string
 		var commandstats_rcv string
+		var infomemory_rcv string
 		var kvmap = make(map[string]interface{})
 		pipeCmds := radix.Pipeline(
 			radix.FlatCmd(&aicpu_rcv, "INFO", "MODULES"),
 			radix.FlatCmd(&aiinfo_rcv, "AI.INFO", model),
 			radix.FlatCmd(nil, "AI.INFO", model, "RESETSTAT"),
 			radix.FlatCmd(&commandstats_rcv, "INFO", "COMMANDSTATS"),
+			radix.FlatCmd(&infomemory_rcv, "INFO", "MEMORY"),
 			radix.FlatCmd(nil, "CONFIG", "RESETSTAT"),
 		)
 		err = h.Do(pipeCmds)
@@ -158,6 +160,7 @@ func (p *Processor) CollectRunTimeMetrics() (ts int64, stats interface{}, err er
 		}
 		process_ainfo_reply(aiinfo_rcv, kvmap)
 		process_commandstats_reply(commandstats_rcv, kvmap)
+		process_memorystats_reply(infomemory_rcv, kvmap)
 		process_info_modules_ai_cpu(aicpu_rcv, kvmap)
 		hosts_metrics_map[metricsHosts[pos]] = kvmap
 	}
@@ -203,6 +206,23 @@ func process_commandstats_reply(commandstats_rcv string, kvmap map[string]interf
 	}
 }
 
+func process_memorystats_reply(commandstats_rcv string, kvmap map[string]interface{}) {
+	ai_cpu_idx := strings.Index(commandstats_rcv, "Memory")
+	if ai_cpu_idx > -1 {
+		ai_cpu_str := commandstats_rcv[ai_cpu_idx:]
+		ai_cpu_metrics_str_arr := strings.Split(ai_cpu_str, "\r\n")[1:]
+		for _, kv_str := range ai_cpu_metrics_str_arr {
+			kv := strings.Split(kv_str, ":")
+			if len(kv) == 2 {
+				k := kv[0]
+				v := kv[1]
+				kvmap[k] = v
+			}
+
+		}
+	}
+}
+
 func process_info_modules_ai_cpu(rcv string, kvmap map[string]interface{}) {
 	ai_cpu_idx := strings.Index(rcv, "ai_cpu")
 	if ai_cpu_idx > -1 {
diff --git a/scripts/redisai_common.sh b/scripts/redisai_common.sh
@@ -46,7 +46,7 @@ DATA_FILE=${DATA_FILE:-${BULK_DATA_DIR}/${DATA_FILE_NAME}}
 INPUT_VISION_VAL_DIR=${INPUT_VISION_VAL_DIR:-datasets/vision/coco-2017-val/cropped-val2017/.}
 OUTPUT_VISION_FILE_NAME=${OUTPUT_VISION_FILE_NAME:-${BULK_DATA_DIR}/vision_tensors.out}
 NUM_VISION_INFERENCES=${NUM_VISION_INFERENCES:-11000}
-VISION_QUERIES_BURN_IN=${VISION_QUERIES_BURN_IN:-1000}
+VISION_QUERIES_BURN_IN=${VISION_QUERIES_BURN_IN:-100}
 VISION_IMAGE_REUSE_FACTOR=${VISION_IMAGE_REUSE_FACTOR:-1}
 
 # How many concurrent workers - match num of cores, or default to 8
diff --git a/scripts/redisai_produce_server_stats_results_table.py b/scripts/redisai_produce_server_stats_results_table.py
@@ -0,0 +1,112 @@
+import argparse
+import json
+import os
+
+
+def process_json_files(dirname: str, prefix: str = ""):
+    workers_arr = []
+    autobatching_arr = []
+    tensorbatching_arr = []
+    workers_autobatching_table_p50 = {}
+    workers_autobatching_table_rps = {}
+    workers_tensorbatching_table_p50 = {}
+    workers_tensorbatching_table_rps = {}
+    files_list = os.listdir(dirname)
+    for fname in files_list:
+        if ".json" in fname and ((prefix != "" and prefix in fname) or (prefix == "")):
+            full_fname = "{}/{}".format(dirname, fname)
+            with open(full_fname) as json_file:
+                dd = json.load(json_file)
+                workers = dd["Workers"]
+                autobatching = dd["MetadataAutobatching"]
+                tensorbatching = dd["TensorBatchSize"]
+                rps = dd["OverallRates"]["overallOpsRate"]
+                p50 = dd["OverallQuantiles"]["AllQueries"]["q50"]
+
+                # we fix the tensor batch size to 1 for autobatching
+                if tensorbatching == 1:
+                    process_table_datapoint(autobatching, autobatching_arr, p50, workers, workers_arr,
+                                            workers_autobatching_table_p50, full_fname)
+                    process_table_datapoint(autobatching, autobatching_arr, rps, workers, workers_arr,
+                                            workers_autobatching_table_rps, full_fname)
+                #  we fix autobatching to 0 when doing tensor batching
+                if autobatching == 0:
+                    process_table_datapoint(tensorbatching, tensorbatching_arr, p50, workers, workers_arr,
+                                            workers_tensorbatching_table_p50, full_fname)
+                    process_table_datapoint(tensorbatching, tensorbatching_arr, rps, workers, workers_arr,
+                                            workers_tensorbatching_table_rps, full_fname)
+
+    workers_arr.sort()
+    autobatching_arr.sort()
+    tensorbatching_arr.sort()
+    return workers_arr, autobatching_arr, workers_autobatching_table_rps, workers_autobatching_table_p50, tensorbatching_arr, workers_tensorbatching_table_rps, workers_tensorbatching_table_p50
+
+
+def process_table_datapoint(metric_key, metric_arr, metric_value, workers, workers_arr, table, fname):
+    metric_key_fname = "{}-fname".format(metric_key)
+    if workers not in workers_arr:
+        workers_arr.append(workers)
+    if metric_key not in metric_arr:
+        metric_arr.append(metric_key)
+    if workers not in table:
+        table[workers] = {}
+    if metric_key not in table[workers]:
+        table[workers][metric_key] = []
+        table[workers][metric_key_fname] = []
+    table[workers][metric_key].append(metric_value)
+    table[workers][metric_key_fname].append(fname)
+
+
+def print_results_table(workers_arr, metric_arr, metric_table, metric_str, functor=min,
+                        print_last_server_runtime_stats=True, server_runtime_stats_metricname="used_memory_human"):
+    print("Workers,{}".format(",".join(["{} {}".format(metric_str, x) for x in metric_arr])))
+    for workersN in workers_arr:
+        line = ["{} workers".format(workersN)]
+        for metric_key in metric_arr:
+            v = "n/a"
+            metric_key_fname = "{}-fname".format(metric_key)
+            if metric_key in metric_table[workersN]:
+                v = functor(metric_table[workersN][metric_key])
+                index = metric_table[workersN][metric_key].index(v)
+                fname = metric_table[workersN][metric_key_fname][index]
+                if print_last_server_runtime_stats:
+                    runtime_stats_metric = "n/a"
+                    with open(fname) as json_file:
+                        dd = json.load(json_file)
+                        server_runtime_stats = dd["ServerRunTimeStats"]
+                        ts = list(server_runtime_stats.keys())
+                        if len(ts) > 0:
+                            last_stat_key = ts[-1]
+                            first_host = list(server_runtime_stats[last_stat_key].keys())[0]
+                            runtime_stats_metric = server_runtime_stats[last_stat_key][first_host][
+                                server_runtime_stats_metricname]
+                    v = '{}'.format(runtime_stats_metric)
+
+            line.append(v)
+        print(",".join([str(x) for x in line]))
+
+
+parser = argparse.ArgumentParser(
+    description="Simple script to process RedisAI results JSON and output overall metrics",
+    formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+)
+parser.add_argument("--dir", type=str, required=True)
+parser.add_argument("--prefix", type=str, default="", help="prefix to filter the result files by")
+parser.add_argument("--server_runtime_stats_metricname", type=str, default="used_memory_human",
+                    help="The server runtime stat metric to extract from the last available datapoint per test")
+args = parser.parse_args()
+
+workers_arr, autobatching_arr, workers_autobatching_table_rps, workers_autobatching_table_p50, tensorbatching_arr, workers_tensorbatching_table_rps, workers_tensorbatching_table_p50 = process_json_files(
+    args.dir, args.prefix)
+print("-------------------")
+print("Using the Overall inferences/sec to decide which result is the best per test variation")
+print("-------------------")
+print("## Auto-batching {} variation".format(args.server_runtime_stats_metricname))
+print_results_table(workers_arr, autobatching_arr, workers_autobatching_table_rps, "Auto-batching", max, True,
+                    args.server_runtime_stats_metricname)
+print("")
+print("-------------------")
+print("## Tensor-batching {} variation".format(args.server_runtime_stats_metricname))
+print_results_table(workers_arr, tensorbatching_arr, workers_tensorbatching_table_rps, "Tensor-batching", max, True,
+                    args.server_runtime_stats_metricname)
+print("")