update for dataset urls and database name on neo

2024-12-26 08:41:05 -06:00 · 2024-07-10 11:19:57 -05:00 · 2024-07-10 11:19:57 -05:00 · 72da2b0d43
commit 72da2b0d43
parent fa39a64846
1 changed files with 135 additions and 0 deletions
--- a/nb-adapters/adapter-neo4j/src/main/resources/activities/neo4j_vector_live.yaml
+++ b/nb-adapters/adapter-neo4j/src/main/resources/activities/neo4j_vector_live.yaml
@ -0,0 +1,135 @@
+min_version: 5.21.1
+description: |
+  Vector workload for Neo4J
+
+  Template Variables:
+  TEMPLATE(dataset)
+  TEMPLATE(node_label,Node)
+  TEMPLATE(k,100)
+  TEMPLATE(batch_size)
+  TEMPLATE(delete_batch_size,1000)
+
+params:
+  driver: neo4j
+  instrument: true
+  labels:
+    target: TEMPLATE(targetname,neo4j)
+  database: TEMPLATE(database,neo4j)
+
+scenarios:
+  default:
+    # Remove any existing data
+    drop: >-
+      run tags='block:drop' threads===1 cycles===UNDEF
+      labels='target:TEMPLATE(targetname,neo4j)'
+      errors=count
+    # Install the schema required to run the test
+    schema: >-
+      run tags='block:schema' threads===1 cycles===UNDEF
+      labels='target:TEMPLATE(targetname,neo4j)'
+    # Load training data, measure how long it takes to load
+    rampup: >-
+      run tags='block:rampup_batch' threads=TEMPLATE(rampup_threads,auto)
+      cycles===TEMPLATE(rampup_cycles,TEMPLATE(trainsize))
+      errors=count,warn
+      labels='target:TEMPLATE(targetname,neo4j)'
+    # Measure how the system responds to queries under a read only workload
+    search_and_verify: >-
+      run alias=search_and_verify tags='block:search_and_verify'
+      threads=TEMPLATE(search_threads,auto) cycles===TEMPLATE(search_cycles,TEMPLATE(testsize))
+      errors=count,warn
+      labels='target:TEMPLATE(targetname,neo4j)'
+    verify_recall: >-
+      run alias=verify_recall tags='block:search_and_verify'
+      threads=TEMPLATE(search_threads,auto) cycles===TEMPLATE(search_cycles,TEMPLATE(testsize))
+      errors=count,warn
+      labels='target:TEMPLATE(targetname,neo4j)'
+
+
+bindings:
+  id: ToString()
+  id_batch: Mul(TEMPLATE(batch_size)L); ListSizedStepped(TEMPLATE(batch_size),long->ToString());
+  train_vector: HdfFileToFloatList("TEMPLATE(dataset)", "/train");
+  train_vector_batch: Mul(TEMPLATE(batch_size)L); ListSizedStepped(TEMPLATE(batch_size),HdfFileToFloatList("TEMPLATE(dataset)", "/train"));
+  test_vector: HdfFileToFloatList("TEMPLATE(dataset)", "/test");
+  relevant_indices: HdfFileToIntArray("TEMPLATE(dataset)", "/neighbors")
+
+blocks:
+  # TODO: Node deletion times out; attempt this in future: CREATE OR REPLACE DATABASE neo4j
+  drop:
+    ops:
+      # Reference: https://support.neo4j.com/s/article/360059882854-Deleting-large-numbers-of-nodes#h_01H95CXNJ8TN4126T3Y01BRWKS
+      delete_nodes:
+        sync_autocommit: |
+          MATCH (n)
+          CALL { WITH n
+          DETACH DELETE n
+          } IN TRANSACTIONS OF $delete_batch_size ROWS;
+        query_params:
+          delete_batch_size: TEMPLATE(delete_batch_size,1000)
+      drop_index:
+        sync_autocommit: DROP INDEX $index_name IF EXISTS
+        query_params:
+          index_name: vector_index
+
+  schema:
+    ops:
+      create_vector_index:
+        sync_autocommit: |
+          CREATE VECTOR INDEX $index_name IF NOT EXISTS FOR (n:TEMPLATE(node_label,Node))
+          ON (n.embedding) OPTIONS
+          {indexConfig: {`vector.dimensions`: $dimensions, `vector.similarity_function`: $similarity_function}}
+        query_params:
+          index_name: vector_index
+          dimensions: TEMPLATE(dimensions)
+          similarity_function: TEMPLATE(similarity_function,cosine)
+
+  rampup:
+    ops:
+      insert_node:
+        async_write_transaction: |
+          CREATE (v:TEMPLATE(node_label,Node) {id: $id, embedding: $vector})
+        query_params:
+          id: '{id}'
+          vector: '{train_vector}'
+
+  rampup_batch:
+    ops:
+      # Reference: https://community.neo4j.com/t/unwind-multiple-arrays-to-set-property/59908/5
+      insert_nodes:
+        async_write_transaction: |
+          WITH $id_list as ids, $vector_list as vectors
+          UNWIND RANGE(0, size(ids) - 1) as idx
+          CREATE (v:TEMPLATE(node_label,Node) {id: ids[idx], embedding: vectors[idx]})
+        query_params:
+          id_list: '{id_batch}'
+          vector_list: '{train_vector_batch}'
+
+  search_and_verify:
+    ops:
+      search:
+        async_read_transaction: |
+          WITH $query_vector AS queryVector
+          CALL db.index.vector.queryNodes($index_name, $k, queryVector)
+          YIELD node
+          RETURN node.id
+        query_params:
+          query_vector: '{test_vector}'
+          index_name: vector_index
+          k: TEMPLATE(k,100)
+        verifier-init: |
+          relevancy = new io.nosqlbench.nb.api.engine.metrics.wrappers.RelevancyMeasures(_parsed_op);
+          for (int k in List.of(100)) {
+            relevancy.addFunction(io.nosqlbench.engine.extensions.computefunctions.RelevancyFunctions.recall("recall",k));
+            relevancy.addFunction(io.nosqlbench.engine.extensions.computefunctions.RelevancyFunctions.precision("precision",k));
+            relevancy.addFunction(io.nosqlbench.engine.extensions.computefunctions.RelevancyFunctions.F1("F1",k));
+            relevancy.addFunction(io.nosqlbench.engine.extensions.computefunctions.RelevancyFunctions.reciprocal_rank("RR",k));
+            relevancy.addFunction(io.nosqlbench.engine.extensions.computefunctions.RelevancyFunctions.average_precision("AP",k));
+          }
+        verifier: |
+          // result is a Record[]
+          values = io.nosqlbench.adapter.neo4j.Neo4JAdapterUtils.getFieldForAllRecords(result, "node.id")
+          ann = values.collect { it.toString().toInteger() }.toArray(new Integer[values.size()])
+          knn = {relevant_indices}
+          relevancy.accept(knn, ann);
+          return true;