Applied AI infrastructure role. Backbone of the product.
This product is a long-term cognitive system. The LLM is the muscle; the memory layer is the brain. Every conversation deepens a structured model of the user (goals, patterns, reflections) across years, not turns. We are building locally-first on existing hardware (Hostinger VPS + RTX 5090 workstation), with paid APIs as a small fallback.
| Area | What we need |
|---|---|
| Python | Deep. Async, type hints, packaging, debugging at the framework level. |
| LLM systems | Production experience with Claude / GPT APIs and local LLM inference (vLLM, Ollama, llama.cpp). Understands tokenization, quantization, KV cache, context window economics. |
| RAG / memory systems | Built one before. Knows where naive RAG falls apart. Has opinions on chunking, retrieval scoring, dedup, and write-time vs read-time abstraction. |
| Embeddings | Hands-on with multiple providers (Voyage, OpenAI) and local models (bge-large, nomic-embed). Knows the MTEB trade-offs. |
| Vector search | pgvector in production. Knows IVF vs HNSW, index tuning, hybrid search with BM25. |
| Orchestration frameworks | LangGraph or equivalent (Letta, custom). Can wire stateful multi-step AI pipelines without turning them into spaghetti. |
| Production AI systems | Has shipped LLM-based systems to real users. Understands rate limits, retries, streaming, idempotency, and failure modes the typical web engineer misses. |
| PostgreSQL | Comfortable with schema design, migrations, query optimization. We run Postgres + pgvector self-hosted. |
| Evaluation | Knows how to build eval harnesses for LLM outputs. Has used LLM-as-judge and human-in-the-loop evals. Has opinions on golden datasets. |
| Observability for AI | LangSmith, Langfuse, or custom tracing. Can debug "why did the AI say that?" from logs. |
| Self-hosted ops | Docker, systemd, Nginx, Cloudflare Tunnel. We run our own stack on a VPS + workstation. |
We will look for:
Think this is you? We would love to hear from you.
Apply NowRuolo di infrastruttura AI applicata. Spina dorsale del prodotto.
Questo prodotto è un sistema cognitivo a lungo termine. L'LLM è il muscolo; il livello di memoria è il cervello. Ogni conversazione arricchisce un modello strutturato dell'utente (obiettivi, schemi, riflessioni) nell'arco di anni, non di singoli scambi. Costruiamo in ottica local-first su hardware esistente (VPS Hostinger + workstation RTX 5090), con le API a pagamento come piccolo fallback.
| Area | Cosa ci serve |
|---|---|
| Python | Avanzato. Async, type hints, packaging, debugging a livello di framework. |
| Sistemi LLM | Esperienza in produzione con le API di Claude / GPT e con l'inferenza di LLM in locale (vLLM, Ollama, llama.cpp). Comprende tokenizzazione, quantizzazione, KV cache, economia della context window. |
| Sistemi RAG / di memoria | Ne ha già costruito uno. Sa dove la RAG ingenua si rompe. Ha opinioni su chunking, scoring del retrieval, deduplicazione e astrazione in scrittura vs in lettura. |
| Embeddings | Esperienza pratica con più provider (Voyage, OpenAI) e modelli locali (bge-large, nomic-embed). Conosce i trade-off del benchmark MTEB. |
| Ricerca vettoriale | pgvector in produzione. Conosce IVF vs HNSW, tuning degli indici, ricerca ibrida con BM25. |
| Framework di orchestrazione | LangGraph o equivalenti (Letta, soluzioni custom). Sa costruire pipeline AI stateful multi-step senza trasformarle in spaghetti code. |
| Sistemi AI in produzione | Ha portato in produzione sistemi basati su LLM per utenti reali. Comprende rate limit, retry, streaming, idempotenza e le modalità di errore che il tipico web engineer si lascia sfuggire. |
| PostgreSQL | A suo agio con progettazione dello schema, migrazioni, ottimizzazione delle query. Usiamo Postgres + pgvector self-hosted. |
| Valutazione | Sa costruire harness di valutazione per gli output degli LLM. Ha usato valutazioni LLM-as-judge e human-in-the-loop. Ha opinioni sui golden dataset. |
| Osservabilita per l'AI | LangSmith, Langfuse o tracing custom. Sa fare debug di «perché l'AI ha detto questo?» dai log. |
| Operations self-hosted | Docker, systemd, Nginx, Cloudflare Tunnel. Gestiamo il nostro stack su VPS + workstation. |
Cercheremo:
Pensi di essere tu? Ci piacerebbe sentirti.
Candidati ora