
Calcular confiabilidade entre codificação LLM e humana
Source:R/ac_qual_reliability.R
ac_qual_reliability.Rdac_qual_reliability() calcula métricas de concordância entre a
classificação feita pela LLM e uma classificação humana de referência,
com intervalos de confiança via bootstrap.
Usage
ac_qual_reliability(
llm,
human,
cat_col = "categoria",
metrics = c("krippendorff", "gwet_ac1", "f1_macro", "percent_agreement"),
bootstrap = 1000L,
ci_level = 0.95,
...
)Arguments
- llm
Tibble com classificação LLM, saída de
ac_qual_code().- human
Tibble com classificação humana, saída de
ac_qual_import_human().- cat_col
Nome da coluna de categoria. Padrão:
"categoria".- metrics
Vetor de métricas a calcular. Padrão:
c("krippendorff", "gwet_ac1", "f1_macro", "percent_agreement").- bootstrap
Número de amostras bootstrap para IC. Padrão:
1000.- ci_level
Nível de confiança do IC. Padrão:
0.95.- ...
Ignorado.
References
Krippendorff, K. (2018). Content Analysis: An Introduction to Its Methodology (4th ed.). SAGE.
Gwet, K. L. (2014). Handbook of Inter-Rater Reliability (4th ed.). Advanced Analytics.
Landis, J. R.; Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159-174.
Examples
if (FALSE) { # \dontrun{
rel <- ac_qual_reliability(llm = coded, human = humano_df)
print(rel)
} # }