Saiba como foi feito

Apesar de Você é o resultado do cruzamento de duas bases de dados, o Censo Escolar do Ministério da Educação (MEC) e do relatório final da Comissão Nacional da Verdade (CNV). Técnicas de raspagem, limpeza e organização de dados, associadas à programação e uso de Inteligência Artificial, foram utilizadas para cruzar essas informações (217.625 unidades educacionais x 377 agentes do Estado vinculados a violações de direitos humanos durante os Anos de Chumbo).

Ainda que a extração dos dados dos 377 agentes do Estado vinculados a violações de direitos humanos seja uma tarefa relativamente simples de ser efetuada manualmente, buscou-se experimentar uma técnica utilizando IA para extração e estruturação dos dados. O procedimento, com descrição dos prompts, encontra-se disponível online aqui. Em resumo, a técnica consistiu em indicar à LLM ChatGPT 4o como reconhecer as unidades informacionais e reescrevê-las em colunas.

O cruzamento dos dados foi feito por meio do Google Colab usando a linguagem Python para leitura e comparação das bases de dados. Como os valores comparados se tratavam de strings (valores em texto),  usamos a biblioteca thefuzz para correspondência das strings. A comparação se deu por meio de correspondência de caracteres e não de expressão. Sendo assim, CASTELLO e CSAETOLL, por exemplo, tem um match de 100%, mas CASTELLO e CASTELO tem um grau de similaridade menor.

Os nomes das escolas passaram por uma limpeza de termos mais comuns para melhorar o match, excluindo as expressões: [“EMEF “, “EMEI “, “EM “, “EE “, “Colegio “, “EEEE “, “Centro Educacional “, “COL “, “CED “, “EF “, “CEI “, “CED “, “EC “, “ESCOLA “, “ESC “, “CEM “].

Após isso os mais de 217 mil nomes de escolas foram comparados com os 377 nomes de agentes do Estado listados na CNV, obtendo como parâmetro o melhor match entre um nome e outro, evitando assim um aumento desnecessário da base de dados. Caso contrário os matchs poderiam, por exemplo, ter diversas correspondências com porcentagens inexpressivas possibilitando 377 variáveis para cada nome de escola, inflando a base em possíveis 82 milhões de resultados. Da forma escolhida restringimos os resultados nos melhores possíveis para cada nome resultando em 217.625 matchs.

Em seguida, geramos um dataframe dos resultados e exportamos para CSV para análise em planilha. Foram selecionados os matchs acima de 70% de grau de similaridade para uma verificação manual em todos os nomes. Para os cinco ditadores que vestiram a faixa presidencial, nossa verificação ampliou o grau de similaridade para 50% ou mais.

Ao todo verificamos 4.776 possíveis correspondências e as qualificamos como:

  • Correspondente – quando se podia afirmar que o nome da escola fazia alusão ao militar;
  • Homônimo – quando parte do nome estava representado na escola mas não se podia afirmar que era de fato uma homenagem a um dos 377 nomes;
  • Falso positivo – quando o grau de similaridade estava dentro do parâmetro definido, mas podíamos afirmar que não se tratava do nome do violador.

Nossa escolha editorial foi a de manter a base de homônimos abertos para que a comunidade escolar possa verificar e promover o debate sobre a origem dos nomes de suas escolas.

Com a planilha contendo o cruzamento dos dados, enriquecemos com informações sobre os agentes listados no relatório da CNV, informações de localidade e situação da unidade escolar do censo escolar de 2023. Usamos o MyMaps da Google (https://apesardevoce.online/mapa-das-escolas/) para criar um mapa interativo e adicionamos ao site.

 A equipe então desenvolveu um código HTML e JavaScript para criar seu próprio banco de consultas. Para tanto, valeu-se de tutoriais dsponíveis na internet e auxílio de inteligência artificial (chatGPT e Gemini) O arquivo das escolas foi convertido para formato JSON (https://apesardevoce.online/wp-content/uploads/2024/08/banco_escolas.json) e inserido no servidor do site desenvolvido para o projeto.