Calculadora de Hardware YOLO

Estimativa de recursos para vigilância RTSP em larga escala

🤖👁️‍🗨️

Sobre esta Ferramenta

Este dashboard interativo foi desenhado para estimar o hardware necessário para processar streams de vídeo RTSP simultâneos utilizando modelos da família YOLO (You Only Look Once). Ajuste os parâmetros no painel lateral para visualizar instantaneamente como a quantidade de câmeras, a versão do modelo e a complexidade da tarefa (Detecção vs. Pose) impactam a necessidade de VRAM, CPU e memória do sistema.

VRAM Necessária

0 GB

Cores de CPU (Min)

0 Cores

RAM do Sistema

0 GB

GPU Recomendada

Calculando...

Projeção de Escala (VRAM vs. Número de Câmeras)

Observe como o consumo de VRAM cresce linearmente, mas sofre aumentos drásticos dependendo do peso do modelo e da tarefa.

📈

Relação de Escala: Câmeras vs Recursos

O processamento de múltiplas câmeras escala de forma quase linear na GPU. Cada stream RTSP adicional exige recursos dedicados para decodificação (NVDEC) e para a inferência (CUDA Cores/Tensor Cores). O principal gargalo geralmente é a VRAM (Memória de Vídeo). Para maximizar a eficiência, é altamente recomendado o uso de tecnologias como NVIDIA DeepStream ou TensorRT, que permitem processar múltiplos vídeos em lotes (batching), reduzindo drasticamente o consumo por câmera.

🧠

Qual modelo utilizar? (v8, v11, v26?)

O YOLO11 é a recomendação atual. Ele possui uma arquitetura otimizada que entrega maior precisão (mAP) com menos parâmetros em comparação ao YOLOv8. Para processamento simultâneo de várias câmeras, utilize as versões Nano (n) ou Small (s).

Nota: "YOLO26" não é uma versão oficial atual, mas simulamos aqui como um modelo de "Próxima Geração" extremamente pesado. Modelos superdimensionados inviabilizam o processamento paralelo em tempo real sem clusters de GPU de nível data center.

🧍‍♂️

A Complexidade Adicional do YOLO Pose

Utilizar o YOLO Pose adiciona uma complexidade computacional significativa em comparação à detecção padrão de caixas (Bounding Boxes).

A estimativa de pose exige que a rede neural calcule não apenas onde a pessoa está, mas preveja 17 pontos chave (keypoints) no corpo (ombros, joelhos, olhos, etc.). Isso requer camadas adicionais (uma 'cabeça' extra na rede), aumentando o número de FLOPs (operações de ponto flutuante) em aproximadamente 30% a 50%. Como resultado, você precisará de mais VRAM e GPUs mais potentes (ou processar menos quadros por segundo) para manter múltiplas câmeras simultâneas.