ANA: a nota sumiu?

A ANA – Avaliação Nacional da Alfabetização – “causou” nesta semana (veja aqui, aqui,aqui e aqui), juntamente com a divulgação da Base Nacional Comum. Muitos ficaram horrorizados com os resultados. O Ministro falou em “vergonha”. Não é mera coincidência que a ANA seja divulgada simultaneamente com a discussão da Base Nacional Comum. INEP e SEB, responsáveis respectivamente pela ANA e pela Base, comungam dos mesmos ideais: a montagem de um grande “big brother” que monitore escolas pelo país afora. E é claro, nada como uma boa crise para ajudar a passar mudanças – já dizia Friedman. A “crise” veio do INEP, com os resultados da ANA. A “mudança” proposta veio da SEB, com a base nacional. Síntese: precisamos da Base Nacional para evitar a catástrofe da ANA.

Em meio a isso é curioso constatar que o INEP mudou a forma de apresentação dos resultados da aprendizagem dos estudantes na ANA. Onde está agora a nota do aluno, a pontuação dos estudantes nos testes? Só temos porcentagens de alunos por “níveis de desempenho”. Criou-se uma escala nacional de desempenho cuja média é de 500 pontos e o desvio padrão 100. A partir daí, se interpretou características pedagógicas do desempenho dos alunos nos intervalos através de itens âncora da prova. Os estudantes foram agrupados em “níveis” a partir da pontuação obtida na prova, mas a pontuação em si, sumiu. Virou porcentagem.

A avaliação não é exatamente o campo da objetividade, mas os “níveis de desempenho” são construções que envolvem mais subjetividade ainda. O “score” ou a pontuação é o dado básico de desempenho dos estudantes.

O problema com os níveis é quem os define, quais são os itens âncoras de cada nível, quantos serão os níveis, etc. São feitos por equipes de especialistas. Quem escolhe? Mais ainda, quem compõe tais equipes? Qual o papel das terceirizadas que possam ter prestado serviço ao INEP neste processo? Uma nota técnica do INEP resume apenas a metodologia. Nela pode-se ler:

O INEP optou por não dar uma denominação para os níveis de proficiência e apenas numerá-los. Em outros países, os níveis recebem denominações como: abaixo do básico, básico, proficiente e avançado. No Brasil, optou-se na divulgação da ANA por nível 1, nível 2, nível 3 e nível 4. Na dependência da disciplina avaliada, há mais ou menos níveis.

Apenas numerar os níveis, no entanto, deixa em aberto que sejam classificados, depois, como quisermos. Permite, por exemplo, que se diga que os níveis 1 e 2 são “inadequados”. Qual a vantagem disso? Ou seja, não se dá uma denominação, mas se deixa em aberto para se denominar depois. Além disso, deixa em aberto que pela mídia se façam interpretações:

Para se chegar a 57% temos que somar os dois primeiros níveis rotulando-os de “inadequados” a posteriori. No caso de escrita, para chegar aos 35% inadequados, há que se somar os três primeiros níveis da escala. Não é assim em outros países onde eles são denominados por “abaixo do básico” e “básico”. Bem diferente. Outra forma de se construir escalas? Quais são as opções que temos?

Todas estas são decisões que além de técnicas são também subjetivas. Os professores, as escolas e seus alunos não podem ser avaliados por escalas que não sejam claramente explicadas. E o público em geral não vai entender como esta escala foi construída se ela não for explicada claramente.

E não basta a nota técnica. Ela é apenas metodológica. É preciso que o INEP divulgue o estudo concreto com os dados de 2013 e 2014 que levaram à construção destes níveis. Não falo de microdados, falo do estudo específico que motivou a escala. O cidadão não é obrigado a processar dados para entender relatórios mal feitos do INEP.

As entidades da área educacional devem cobrar tal estudo (que talvez tenha sido feito por alguma terceirizada) e se não aparecer, exigir que seja entregue por meio da Lei de Acesso à Informação.

Além disso, é preciso levar em conta nas análises dos dados as situações que orientaram a inclusão ou exclusão de dados das escolas no cálculo:

Um relatório nacional, não pode deixar de dar uma posição geral sobre como estes e outros parâmetros se comportaram na aplicação em nível nacional e regional. Onde está o relatório técnico da aplicação das provas? Estes dados não podem ficar apenas no interior de bases de dados para consulta ou no interior do INEP. A própria interpretação que a mídia está dando, depende destes parâmetros aqui mencionados, além do que já foi dito sobre a própria construção das escalas.

Ou o INEP dá transparência a seus cálculos e faz um relatório decente, ou não há como acreditar em suas análises. Veja aqui um exemplo de relatório bem feito (em inglês) de uma avaliação nacional amostral (NAEP americano).

A questão da definição das escalas de proficiência tem sido motivo de preocupação em outros países. Nos Estados Unidos, segundo Bernie Horn, vários estados fizeram alterações nas notas de corte para alterar resultados de exames: New York, Florida,Columbia entre outros. As escalas são calibráveis e portanto podem atender a variados objetivos.

Uma transparência nos métodos e cálculos é fundamental. Nada impede, por exemplo, que quando se trata de mostrar que as escolas públicas são ruins e devem ser privatizadas, se possa elevar a dificuldade das escalas. Ou que quando se trata de mostrar que um governo está indo bem na educação, se possa afrouxar os critérios e mostrar avanço nas proporções de estudantes que estão nos níveis mais proficientes. É preciso que os cálculos de calibração das escalas não fiquem restritos ao interior da agência avaliadora e nem apenas a cargo de empresas terceirizadas.

Ao divulgar os resultados da ANA baseando-se somente em porcentagens de alunos distribuídos pelos níveis de proficiência, o INEP introduz mais subjetividade nos processos de avaliação e interpretação dos resultados, sem um maior esclarecimento sobre os procedimentos. A mudança de método de divulgação não impediria, até onde se consegue ver com as informações disponíveis, que não fosse feito uma relação com os dados de 2013. Não dá pelo menos para calcular a média e comparar, já que estão na mesma métrica? Poderiam ter sido mantidas as outras formas de divulgação paralelamente. Porcentagens de alunos por nível são baseadas nas pontuações dos alunos, embora não sejam as notas em si, como afirma Horn a respeito da situação nos Estados Unidos:

“Mas as únicas coisas que foram divulgadas são percentagens de alunos que supostamente se encontram nos níveis de “proficiência”. Elas não são as pontuações do teste – certamente não o que os pais entenderiam por pontuações. Elas são medidas completamente subjetivas.”

Mesmo assim, as administradoras da base nacional americana constituem painéis de 500 pessoas, incluindo aí pessoal com experiência em ensino, profissionais especialistas nas áreas e outros para formatar estas decisões. Isso não elimina os problemas existentes na sua elaboração, mas pelo menos dá transparência real às decisões e especialmente, aos seus limites. Não basta divulgar a escala e explicar seu significado, é preciso mostrar detalhadamente o método e o processo pelo qual a “régua” foi constituída. Sem isso, não há credibilidade nas medidas. É especialmente importante tornar claro os limites interpretativos das escalas.

Há um conjunto de decisões no campo estatístico e pedagógico que interagem para permitir a construção de uma determinada escala de desempenho. Tais construções estão permeadas por decisões da equipe que trabalha em sua produção. Infelizmente, no Brasil, não temos tradição de ter relatórios completos de aplicação das provas e de decisões técnicas.

Outro aspecto a ser considerado é que as provas do INEP na Avaliação Nacional da Alfabetização estão no limite do limite quanto ao número de itens que compõem o teste: 20. Note que em apenas 20 situações de teste os estudantes são chamados a mostrar o seu domínio em alfabetização e em outras 20 situações seu domínio de matemática.

Isso acontece porque o governo insiste em fazer uma avaliação censitária que permita atingir todos os estudantes. Temos uma avaliação censitária porque queremos “vigiar e punir”. Fosse uma prova amostral, poderíamos, como fazíamos com o SAEB antigo, trabalhar com uma maior abrangência de itens avaliando mais conteúdo, em uma formatação em que nem todos os estudantes tivessem que responder aos mesmos itens. Dessa forma, várias versões de uma prova de matemática, por exemplo, abrangendo muito mais itens de conteúdo poderiam ser aplicadas aos alunos e, no conjunto, ter-se uma visibilidade melhor de como uma maior quantidade de conhecimento foi assimilada ou não pelos estudantes. Este deveria ser o objetivo da avaliação para formular política pública e não para o controle das escolas com responsabilização verticalizada. Precisamos trocar este tipo de responsabilização vertical e autoritária, por uma responsabilização participativa – esta não exige avaliação censitária.

Se queremos de fato ajudar a educação nacional, implantemos avaliação amostral com uma maior abrangência de itens avaliados. Fortaleçamos sistemas municipais de avaliação participativos que mobilizem as forças positivas existentes dentro das escolas. Façamos das nossas escolas um centro cultural impulsionador da qualidade. A vigilância baseada em avaliação censitária não nos levará longe. São as escolas que devem ter protagonismo na avaliação, suas comunidades internas e externas, e não o INEP. A este caberia incentivar, estimular e apoiar tecnicamente os municípios para que eles organizassem os processos de avaliação locais. É na ponta do sistema que se joga o destino dos alunos e não nas planilhas e bases de dados divulgadas pelo INEP. É falsa a ideia de que os professores não conhecem a realidade de seus alunos nas escolas e com isso precisam de avaliação externa.

Preferimos gastar mais fazendo uma avaliação censitária pelo desejo de controlar cada escola. Com isso estreitamos a abrangência dos exames, limitamos o alcance da avaliação, somos forçados a trabalhar com poucos itens e iguais para todos, pois com a idade de oito anos não podemos fazer provas prolongadas sob pena de promover o cansaço dos estudantes e consequentemente interferir com o que eles de fato aprenderam. Há caminhos alternativos.

Finalmente, uma palavra sobre a “vergonha do Ministro“. Porta-se como se não fizesse parte de um governo que está há mais de 12 anos cuidando da educação. Esquece-se que recentemente fomos objeto de elogios nas avaliações latino-americanas do TERCE:

“Os países foram ordenados em três grandes grupos em função da média: significativamente abaixo da média; significativamente na média, ou significativamente acima da média. Quando comparado regionalmente, o Brasil se sai bem pois as médias em todas as medições de todas as disciplinas, para desgosto dos economistas de plantão, está ou equiparada à média latino americana ou acima dela. Mais informações aqui.”

Em julho deste ano a Assessoria de Comunicação do INEP escreve:

“Estudantes brasileiros do ensino fundamental tiveram, em 2013, desempenho destacado em matemática e leitura, de acordo com o 3º Estudo Regional Comparativo e Explicativo (Terce), realizado pelo Laboratório Latino-Americano de Avaliação da Qualidade da Educação (Llece).”

Agora, com a divulgação do resultado da ANA, viramos uma “vergonha”. Há que se indagar: a média agora não conta mais e só consideramos a porcentagem de respostas por níveis de proficiência? Posso até concordar com as vantagens de se observar mais pormenorizadamente a movimentação dos estudantes no sistema, a partir do cálculo de porcentagens por níveis, do ponto de vista da equidade. Mas quem define os níveis. Quem define o grau de dificuldade das provas. Uma forma de apresentação dos dados não exclui a outra. Elas são igualmente precárias e, portanto, melhor lidar com as duas.

http://avaliacaoeducacional.com/2015/09/20/ana-a-nota-sumiu-final/