APOSTILA BNDES 2024 ANALISTA - CIÊNCIA DE DADOS. Esta apostila contempla todo os conteúdos de conhecimentos básicos e específicos exigidos no edital para este cargo. Apostila TEÓRICA ricamente aprofundada.
VEJA AQUI amostras do material
VEJA AQUI prazos de disponibilidade do material
CONTEÚDO PROGRAMÁTICO
LÍNGUA PORTUGUESA
1. Compreensão de texto. 2. Ortografia oficial. 3. Mecanismos de coesão textual. 4. Significação das palavras. 5. Emprego das classes de palavras. 6. Coordenação e de subordinação. 7. Emprego dos sinais de pontuação. 8. Concordância verbal e nominal. 9. Regência verbal e nominal.
LÍNGUA INGLESA
1. Compreensão de texto em língua inglesa. 2. Itens gramaticais relevantes. 3. Vocabulário. 4. Mecanismos de coesão textual (referenciação e sequenciação). 5. Semântica.
CONHECIMENTOS TRANSVERSAIS
1. Políticas Públicas e Desenvolvimento: 1.1 Planejamento governamental, finanças e gestão pública; 1.2 Papel das instituições; 1.3 Noções sobre finanças públicas, ciclo orçamentário, controles interno e externo; 1.4 Noções básicas e estágios do ciclo político-administrativo da política pública; 1.4.1 Importância do monitoramento e da avaliação da efetividade das políticas públicas; 1.4.2 Modelos de análise de políticas públicas; 1.5 Formas de atuação da política pública; 1.5.1 Programas sociais e de garantia da renda; 1.5.2 Incentivos tributários, subsídios e taxação; 1.6 Papel das compras públicas no adensamento produtivo e tecnológico; 1.7 Políticas fiscal e monetária verdes. 2. Papel do BNDES no desenvolvimento brasileiro: 2.1 História política e econômica do Brasil e o papel do BNDES no desenvolvimento do país; 2.1.1 O papel histórico do BNDES nos diferentes planos econômicos e a questão regional do País; 2.2 O BNDES e as políticas públicas atuais: Novo PAC, Nova Indústria Brasil e Plano de Transformação Ecológica como elementos de neoindustrialização e descarbonização da economia; 2.3 O papel dos bancos de fomento no desenvolvimento econômico e social; 2.3.1 Modelos de atuação direto e indireto; 2.4 Formas de atuação do BNDES; 2.4.1 Estruturação e financiamento de projetos de infraestrutura; 2.4.2 Financiamento à exportação; 2.4.3 Financiamento às micro, pequenas e médias empresas; 2.4.4 Atuação via Mercado de Capitais; 2.4.5 Financiamento à indústria. 3. Clima, Sustentabilidade e Responsabilidade Socioambiental e Climática: 3.1. Meio Ambiente e Sustentabilidade; 3.2 Política Nacional de Meio Ambiente (PNMA - Lei nº 6938/1981 e suas alterações); 3.2.1 Licenciamento ambiental – Portal Nacional de Licenciamento Ambiental (PNLA); 3.2.2 Sistema Nacional de Unidades de Conservação da Natureza (SNUC – Lei nº 9.985/2000 e suas alterações); 3.2.3 Lei sobre a Proteção da Vegetação Nativa (conhecida como Novo Código Florestal - Lei nº 12.651/2012 e suas alterações); 3.3 Clima e Sustentabilidade; 3.3.1 Mudanças climáticas; 3.3.2 Riscos físicos e de transição; 3.3.3 Mitigação e adaptação; 3.3.4 Transição ecológica justa; 3.3.5 Política Nacional sobre Mudança do Clima (PNMC - Lei nº 12187/2009 e suas alterações); 3.3.5 Contribuição Nacionalmente Determinada (NDC, em inglês) do Brasil (https://www.gov.br/mma/pt-br/assuntos/mudanca-do-clima/NDC). 3.3.6. Perfil de emissões de gases do efeito estufa do Brasil; 3.4 Desenvolvimento e finanças sustentáveis; 3.4.1 Desenvolvimento sustentável, responsabilidade socioambiental, consumo consciente e economia circular; 3.4.2. Bioeconomia. 3.4.3. Biodiversidade e Soluções Baseadas na Natureza 3.5 Objetivos de Desenvolvimento Sustentável – ODS: Agenda 2030. 3.6 Oportunidades e Riscos sociais, ambientais e climáticos no Sistema Financeiro; 3.6.1 Política de Responsabilidade Social, Ambiental e Climática (PRSAC) das instituições financeiras; 3.6.2 Resoluções CMN nº 4557/2017 e nº 4945/2021, suas alterações e normativos associados; 3.6.3 Divulgação de informações socioambientais e climáticas das instituições financeiras; 3.6.4 Finanças Sustentáveis e Aspectos Ambientais, Sociais e de Governança (ASG) de investimentos. 4. Princípios de análise de dados e informações: 4.1. Os dados e as organizações: Tipos de dados: estruturados e não estruturados; quantitativos e qualitativos. Tipos de produtos de dados (bases de dados, relatórios, planilhas, análise exploratória de dados, dashboards, modelos de aprendizado de máquina) e seus usos (explorar, alertar, descrever, explicar, prever, recomendar, otimizar). Princípios de organizações orientadas a dados. Governança de dados e seus benefícios; 4.2. Etapas do ciclo de análise de dados (CRISP-DM). Fundamentos para criação de métricas de negócio (KPIs). Técnicas de identificação de causa raiz (Diagrama de Ishikawa, Cinco Porquês, Análise de Pareto); 4.3. Estruturas lógicas e noções básicas de lógica: conectivos, tautologia, contradições, contingência, implicações, equivalências, quantificadores, afirmações e negações. Lógica de argumentação: analogias, inferências, deduções, conclusões e silogismos. Lógica proposicional: proposições simples e compostas. Tabelas-verdade. Equivalências. Leis de De Morgan;4.4. Coleta e preparação dos dados. Problemas comuns em dados: outliers, dados faltantes, erros no tipo dos dados e viés de seleção; 4.5. Análise de Dados: Estatística descritiva: medidas de posição (média, mediana, moda, quartis), de dispersão (variância, desvio-padrão) e de associação (correlação de Pearson). Correlação e causalidade. Princípios básicos de inferência estatística: noções de amostragem (população, e amostra), erro amostral, noções fundamentais de probabilidade (conceitos fundamentais, probabilidade condicional e independência), distribuições de 23 probabilidade comuns (uniforme, normal, binomial e exponencial), conceitos básicos de estatística indutiva; 4.6. Introdução à visualização de dados: Tipos de gráficos (barras, pizza, linha, dispersão, histograma), como interpretá-los e quando utilizá-los. Boas práticas para a construção de gráficos (escala dos eixos, margens de erro, disposição de mais de uma série em um único gráfico, ênfase em uma série ou em um ponto, barra ou fatia específicos). Princípios de storytelling com dados; 4.7. Uso responsável de dados: Lei Geral de Proteção de Dados Pessoais – LGPD (Lei nº 13.709/2018 e suas alterações). 5. Diversidade e Inclusão: 5.1 O papel do Estado brasileiro no combate à pobreza; 5.2 O papel do BNDES na redução de desigualdades econômicas, sociais e territoriais no Brasil; 5.3 Direitos Humanos, Objetivos de Desenvolvimento Sustentável – ODS 2030 e diversidade; 5.3 Interseccionalidade e suas interfaces com marcadores sociais de raça, cor e etnia, classe, idade, deficiência, localização geográfica, sexualidade, expressão e identidade de gênero; discriminação e exclusão social e digital; 5.4 Índice de Diversidade B3 – IDIVERSA B3: objetivo e metodologia; 5.5 Desafios sociopolíticos da inclusão de grupos vulnerabilizados: crianças e adolescentes; idosos; LGBTQIA+; pessoas com deficiências; povos originários, comunidades quilombolas e demais minorias sociais; 5.6 Desafios territoriais: a questão urbana e regional no Brasil – disparidades e segregação socioespacial.
CONHECIMENTOS ESPECÍFICOS
I – MATEMÁTICA: 1. Cálculo Básico: funções; limites; derivadas; derivadas parciais; máximos e mínimos; integrais. 2. Álgebra Linear: vetores e matrizes; operações com vetores e matrizes; tipos de matrizes; transformações lineares; espaços e subespaços vetoriais de Rn ; sistemas de equações lineares; normas (L1, L2, infinita, p-generalizada, Minkowksi e Chebyshev), autovalores e autovetores; decomposição matricial (Cholesky e Singular Value Decomposition (SVD)). 3. Otimização Matemática: programação linear inteira e mista; problemas de otimização unidimensionais e multidimensionais, com e sem restrições; otimização convexa; programação dinâmica.
II - PROBABILIDADE E ESTATÍSTICA: 1. Fundamentos de probabilidade: definições básicas de probabilidade; axiomas; probabilidade condicional. 2. Variáveis aleatórias e distribuições de probabilidades: variáveis aleatórias; funções de probabilidade; principais distribuições discretas e contínuas (Uniforme, Binomial, Normal, Poisson, Bernoulli e Exponencial). 3. Estatísticas Descritivas: medidas de tendência central (média, mediana e moda); medidas de dispersão (variância, desvio padrão e amplitude); medidas de posição (percentis e quartis). 4. Teoremas fundamentais da probabilidade: independência de eventos; teorema de Bayes; teorema da probabilidade total; lei dos grandes números; teorema central do limite. 5. Distribuições amostrais: distribuição amostral da média; distribuição amostral da proporção; distribuição qui-quadrado; distribuição t de Student; distribuição F. 6. Inferência estatística: estimação pontual e intervalar; intervalos de confiança; testes de hipóteses (formulação, tipos de erros, e poder do teste); testes z e t para médias; testes de proporções; testes qui-quadrado para independência e ajuste de Goodness-of-Fit; teste A/B. 7. Correlação: correlação e causalidade; correlação de Pearson; correlação de Spearman; correlação parcial. 8. Inferência Bayesiana: distribuições a priori e a posteriori; estimativa pontual e intervalar; predição e testes de hipóteses bayesianos; critérios de seleção de modelos; métodos MCMC.
III - FINANÇAS QUANTITATIVAS: 1. Matemática financeira: Convenções de Cálculo de Juros; Valor Presente Líquido; Taxa Interna de Retorno; projeção de fluxos de caixa futuros. 2. Mercados de Taxas de Juros: Instrumentos de Renda Fixa; Taxa Spot; Taxa Foward; Relações Básicas de Não Arbitragem no Mercado de Juros; Curvas de Juros; Bootstraping de Curvas de Juros; Duration; Convexidade; técnicas de interpolação de taxas de juros; modelos de Svenson e de Nelson-Siegel. 3. Medidas de Desempenho e de Riscos: Volatilidade; Value At Risk; Conditional Value at Risk; Backtesting de Modelos de Risco; Maximum Drawdown; Sharpe Ratio; Information Ratio. 4. Otimização de carteiras: modelo de média-variância com e sem restrições; modelos de paridade de riscos; modelos de paridade de riscos hierárquica (HRP). 5. Simulação de Monte Carlo em Finanças: principais aplicações em precificação e análise de riscos. 6. Derivativos: conceitos gerais; derivativos de renda variável; derivativos de renda fixa; modelo de Black-Scholes.
IV- DADOS E BASES DE DADOS: 1. Conceitos fundamentais de dados: o que são dados; processos geradores de dados; tipos e classes de dados; formatos de arquivos de dados comuns (txt, csv, xlsx, xml, json e parquet). 2. Introdução a Bases de Dados: o que são bases de dados; tipos de bases de dados; metadados; tidy data. 3. Introdução ao armazenamento de dados: armazenamento de arquivos; principais estruturas de armazenamento de dados analíticos (data warehouse, data mart, data lake data lakehouse, vector stores), suas diferenças conceituais e casos de uso; armazenamento na nuvem. 4. Sistemas Gerenciadores de Base de Dados (SGBD): definição de SGBD; principais funções; principais tipos de SGBDs (SQL e NoSQL) e suas diferenças; transações e índices. 5.Modelo de dados: modelo de entidade-relacionamento (ER); modelo relacional: tabelas, esquemas, chaves, consultas; dados estruturados, semiestruturados e não estruturados; modelo chave-valor; modelo colunar; modelo orientado a documentos; modelo orientado a grafos. 6. Ingestão e armazenamento de dados; definição de ingestão em lote (batch) e em tempo real (stream). 7. Big Data: conceito de big data; conceitos gerais sobre técnicas e ferramentas para lidar com grandes volumes de dados (Spark, Hadoop, HDFS e MapReduce).
V - GESTÃO DE PROJETOS DE CIÊNCIA DE DADOS: 1. Ciclo de vida de projetos de ciência de dados. 2. Metodologias de gestão de projetos de ciência de dados: CRISP-DM; Microsoft Team Data Science Process (TDSP); princípios de métodos ágeis (Scrum/Kanban); fundamentos de design thinking. 3. Principais papéis envolvidos em projetos de ciência de dados.
VI - QUALIDADE E PREPARAÇÃO DE DADOS: 1. Metadados: a sua importância para avaliação da qualidade de dados; linhagem de dados; 2. Coleta de dados: fontes comuns de dados (internas e externas); interface de programação de aplicação (API); técnicas de web scraping. 3. Problemas comuns de qualidade de dados: valores ausentes; duplicatas; outliers; desbalanceamento; erros de imputação. 4. Preparação de dados: técnicas de tratamento e limpeza de dados; técnicas detecção de vieses; data profiling. 5. Pré-processamento de dados: técnicas de normalização e padronização; discretização; metodologias de codificação de variáveis categóricas (encoding). 6. Feature engineering: processos para enriquecimento de dados, com criação e seleção de features relevantes; transformações matemáticas e estatísticas comuns em variáveis. 7. Divisão de dados: técnicas de amostragem; divisão entre treinamento, validação e teste; abordagens para crossvalidation.
VII – MODELAGEM: 1. Pipeline de treinamento de modelos e suas etapas. 2. Otimização de hiperparâmetros: grid search; random search; algoritmos de otimização avançados; automl; autotuning; autofeature engineering. 3. Métricas para avaliação e 34 seleção de modelos: métricas para regressão (MSE; RMSE; MAE; R²; R² ajustado); métricas para classificação (accuracy, precision, recall, F1-score e ROC-AUC); análise de matriz de confusão; trade-off entre viés e variância; detecção de overfitting e underfitting. 4. Técnicas de regularização: lasso; ridge; elastic net; dropout; early stopping; batch normalization. 5. Dados desbalanceados: técnicas para lidar com dados desbalanceados; oversampling; undersampling; dados sintéticos; ajuste de pesos. 6. Validação de Modelos: Kfold cross-validation; leave-one-out cross-validation; bootstrap. 7. Modelagem de IA centrada em dados (data-centric). 8. Interpretabilidade de modelos: feature importance; valores de Shapley (SHAP) e LIME. 9. Implantação de modelos em produção: exportação de modelos (pickle, PMML e ONNX); modelos como serviço (APIs; microsserviços); integração com sistemas existentes; APIs e serviços web; conceitos de MLOps; implantação local (on premise) e na nuvem. 10. Monitoramento de modelos: monitoramento de desempenho; data drift; concept drift; detecção de drifts; retreino e atualização de modelos.
VIII - CLASSES DE MODELOS: 1. Redução de dimensionalidade: Principal Component Analysis (PCA); LDA; ICA; T-SNE; uso de autoencoders. 2. Técnicas de clusterização: K-Means; agrupamento hierárquico; Gaussian Mixture Models; DBSCAN. 3. Técnicas de classificação: Regressão logística; K-Nearest Neighbors (KNN); Suport Vector Machines (SVM); Decision Trees (CART); classificadores Naive-Bayes (BinomialBeta, Poisson-Gama, Normal-Normal); Florestas Aleatórias (Random Forest). 4. Introdução à regressão: regressão linear simples e múltipla; hipóteses clássicas, método dos mínimos quadrados, diagnóstico e avaliação de modelos de regressão (F-test, coeficiente de determinação, análise de resíduos e demais), testes de significância, intervalos de confiança, análise ANOVA, modelos não lineares (log-log, lin-log, log-lin e inverso). 5. Ensembling de modelos: Bagging; boosting (AdaBoost, Gradient Boosting, XGBoost, LightGBM e CatBoost); stacking. 6. Sistemas de recomendação: Filtragem colaborativa (baseadas em usuários ou itens); filtragem baseada em conteúdo; sistemas híbridos; problemas comuns (cold start, escalabilidade, data sparsity). 7. Modelos de séries temporais: definição; componentes (tendência, sazonalidade, ciclos e ruído); autocorrelação e autocorrelação parcial; conceito e testes de estacionaridade; cointegração; modelos AR, ARMA e ARIMA; modelos de suavização exponencial; modelos de decomposição; modelos de regressão com variáveis temporais (ARIMAX). 8. Tópicos em regressão: modelos de dados em painel; GLM; regressão espacial; regressão quantílica; regressão de Poisson; modelos VAR; ECM e GARCH. 9. Introdução a modelos causais: fundamentos de causalidade estatística, experimentos e quase-experimentos, desenho de descontinuidade de regressão, modelos de variáveis instrumentais, diferenças em diferenças, modelos de equações estruturais (SEM), métodos de pareamento.10. Redes neurais: Introdução a Redes Neurais Artificiais (arquitetura, funções de ativação, treinamento, forward pass, backpropagation, loss functions, algoritmos de otimização, épocas, batch size e demais); embeddings; redes profundas (deep learning); Redes Neurais Convolucionais (CNNs) e Recorrentes (RNNs); LSTM; GRU; GAN; modelos multimodais. 11. Modelos de aprendizado por reforço: Q-Learning; Deep QNetworks (DQN); Policy Gradient Methods; multi-armed bandit. 12. Visão Computacional: técnicas de pré-processamento de imagem; OCR; segmentação e extração de características de imagens; detecção; segmentação e reconhecimento de objetos; classificação de imagens. 13. Modelos multi-modais: principais aplicações. 14. Quantificação de incertezas em modelos preditivos: Programação Probabilística; Amostragem de Gibbs; Inferência Variacional; Hamiltonian Monte Carlo; Modelos de Markov Ocultos; Aprendizado Profundo Probabilístico; Conformal Prediction.
IX - PROCESSAMENTO DE LINGUAGEM NATURAL (NLP): 1. Técnicas de préprocessamento de texto: limpeza; normalização; remoção de stop words; stemming; lematização e demais. 2. Representação de texto: N-grams; CBoW; FTD-IDF; word embeddings (Word2Vec, GloVe e demais) e document embeddings (Doc2Vec, BERT, ELMo e demais). 3. Modelagem de tópicos: latent dirichlet allocation (LDA); non-negative matrix factorization (NMF). 4. Modelos de linguagem: modelos de linguagem tradicionais; redes neurais recorrentes; redes neurais convolucionais; transformers. 5. Tarefas básicas em NLP: classificação de texto; análise de sentimento; extração de informação (NER; REL); similaridade textual; sumarização de texto; rotulação de partes do discurso (POS-tagging) e tradução automática. 6. Aplicações relacionadas a modelos de NLP: geração de texto; question answering e diálogo conversacional; retrieval augmented generation (RAG); chatbots; extração estruturada de informações; agentes de IA (IA agents).
X - PROGRAMAÇÃO E FERRAMENTAS: 1. Linguagem de programação Python: sintaxe básica; operadores; variáveis; estruturas de dados (dataframes, listas, matrizes, dicionários e conjuntos); estruturas de controle de fluxo; funções; escopo; método; paralelização de rotinas; serialização e desserialização. 2. Bibliotecas Python: Pandas (manipulação; limpeza; transformação e pré-processamento de dado); NumPy (operações de arrays); Matplotlib e Seaborn (visualização de dados); TensorFlow; Keras e PyTorch (redes neurais); Scikit-learn e XGBoost (aprendizado de máquina); NLTK e spaCy (processamento de linguagem natural); huggingface (LLM); PySpark (Big data); Beautiful Soup (web scraping); Streamlit (data apps). 3. Linguagem SQL (Structured Query Language): conceitos introdutórios; comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais). 4. Gestão de Código: qualidade de código; 35 testes automatizados; versionamento (Git). 5. Ambientes de programação: Jupyterhub e Jupyter Notebooks; linha de comando (navegação em diretórios, manipulação de arquivos e dados); gerenciamento de processos; configuração de ambientes e variáveis de ambiente; gerenciamento de pacotes Python (pip); ambientes virtuais Python. 6. Microsoft Power BI: conexão e importação de dados; modelagem de dados; criação de medidas e colunas calculadas; visualizações e gráficos; interações entre visualizações; criação de relatórios e painéis.
XI - VISUALIZAÇÃO; STORYTELLING E COMUNICAÇÃO CORPORATIVA: 1. Principais tipos de visualizações e gráficos: tabela; gráfico de barras; linhas; pizza; dispersão; histograma; área; boxplot; bolhas; radar; mapas cartográficos; mapa de calor. 2. Visualização de dados: princípios de design de gráficos efetivos; principais conceitos de codificação visual; interatividade; acessibilidade em gráficos. 3. Dashboards: técnicas para construção de interfaces e layout; abordagens para escolha de designs; organização de elementos visuais e gráficos; seleção de gráficos e visualizações; interatividades e drill-downs; acessibilidade. 4. Storytelling com dados: construção de narrativas visuais e contextualizações; componentes de um storytelling efetivo. 5. Reportes executivos: princípios de comunicação corporativa; interpretação e apresentação de dados de resultados de análises e de insights.
XII – GOVERNANÇA E SEGURANÇA DE DADOS: 1. Noções de governança de dados (DMBOK): conceitos e objetivos da governança de dados; principais técnicas de qualidade e integridade de dados; princípios de privacidade e proteção a dados.
XIII – GOVERNANÇA, SEGURANÇA E APLICAÇÃO RESPONSÁVEL DE IA: 1. Noções de governança de IA: conceitos e objetivos da governança de IA; gestão de riscos em IA; gestão de ciclo de vida de modelos. 2. Principais riscos e vulnerabilidades relacionados a IA: viés algorítmico; exposição de dados sensíveis; envenenamento de dados de treinamento; ataques adversariais; ataques de manipulação de modelos; roubo de modelos; ataque de inferência; alucinações. 3. Aplicação de IA responsável: definição; ética; transparência; justiça e equidade; responsabilização; segurança cibernética; compliance regulatório.
Parcelas | Total | |
---|---|---|
1 x | de R$60,00 sem juros | R$60,00 |
2 x | de R$31,61 | R$63,22 |