Hopp til hovedinnhold

Benchmarks og metodikk

Transparent dokumentasjon av hvordan vi måler ytelse og kostnadsbesparelse. Hvis du ser et tall et sted på lexico.no, er dette siden der metodikken er beskrevet.

STONE kompresjon

Semantisk tokenreduksjon for LLM-forespørsler

Påstanden: opptil 79 % reduksjon

STONE-kompresjonsmotoren kan redusere antall tokens som sendes til AI-modellen med opptil 79 % på optimale workloads — uten merkbart tap i svarkvalitet. Gjennomsnittet på blandede B2B-workloads er 45-65 %.

Hvordan vi måler

  • Tokenteller før kompresjon (OpenAI tiktoken / Anthropic tokenizer)
  • Tokenteller etter STONE-prosessering på samme prompt
  • Semantisk sammenligning av output mot baseline (cosine similarity på embeddings)
  • Blindtest der to AI-svar (komprimert + ukomprimert) vurderes av GPT-4 som dommer

Viktige forbehold

  • Faktisk kompresjon avhenger av promptmønster. Repetitive workloads komprimerer best; kreativ tekst minst.
  • 79 %-tallet er observert topp på strukturerte B2B-workloads, ikke garantert gjennomsnitt.
  • ROI-kalkulatoren på /produkter bruker konservativt 60 % som standardestimat.
  • målinger er utført av LexiCo — uavhengig tredjeparts-validering er under arbeid med Simula Research Laboratory.

O(1) responstid

Konstant-tids AI-proxy uavhengig av kontekstlengde

Påstanden: konstant responstid

Vår proxy-arkitektur leverer responstid som er tilnærmet uavhengig av input-størrelse innenfor typisk kontekstvindu. Der tradisjonelle løsninger skalerer lineært eller kvadratisk med antall tokens, holder vår proxy en nesten flat kurve.

Hvordan vi måler

  • Latens målt fra API-forespørsel til første token mottatt (TTFT)
  • Testsett med kontekst fra 100 til 100 000 tokens
  • P50/P95/P99 percentiler over 1 000 forespørsler per størrelse
  • Sammenligning mot direkte kall til underliggende modell (OpenAI, Anthropic)

Viktige forbehold

  • Konstant tid gjelder proxy-laget, ikke den underliggende modellen (som fortsatt har egen latens).
  • Ekstremt store kontekster over modellens vindu returnerer feil, ikke langsom respons.
  • Nettverkslatens til klient teller ikke i målingen.

Tredjeparts- validering

LexiCo har vært i dialog med akademiske miljøer for uavhengig validering av kjerneteknologien:

  • Simula Research Laboratory — innledende dialog om validering av O(1)-arkitektur og STONE-kompresjon. Under arbeid 2026.
  • NTNU — tidligere gjennomgang av arkitekturbeskrivelsen. Fullstendig rapport ikke publisert.

Vi er forpliktet til transparens. når tredjeparts-rapporter er klare, publiseres de her med lenke til fulltekst.

Vil du teste selv?

Kontakt oss for testtilgang til LexiSaaS med dine egne workloads. Du får ekte tall basert på din faktiske bruk.