Informing a risk prediction model for binary outcomes with external coefficient information.

Cheng, Wenting, Taylor, Jeremy M. G, Gu, Tian, Tomlins, Scott A., Mukherjee, Bhramar1(2019), Informing a risk prediction model for binary outcomes with external coefficient information. Journal of the Royal Statistical Society: Series C (Applied Statistics) http://web.a.ebscohost.com.devinci.idm.oclc.org/ehost/detail/detail?vid=9&sid=a1f784a0-99fd-469c-81b3-9bbabea81bc5%40sessionmgr4006&bdata=Jmxhbmc9ZnImc2l0ZT1laG9zdC1saXZl#AN=133645035&db=bth

 

Mots clés : Bayesian methods, Constrained estimation, Logistic regression, Prediction models

 

Dans cette article, on nous donne des informations sur différentes méthodes statistiques. Les modèles de prédiction des risques sont mis en avant afin d’effectuer des analyses (ici médicales). Dans ce domaine, les statistiques sont énormément utilisées. Ici on prends dans un premier temps, l’exemple de modèles établis sur le risque de développer un cancer du sein. Le but est de savoir s’il y a des facteurs qui permettent de prédire si oui ou non une personne est susceptible de développer la maladie.

Dans les cas épidémiologique, on utilise également des modèles mais également des méthodes tels qu’un score de risque de Framingham qui peuvent être utilisés pour évaluer le risque d’un individu de vivre et également pour prendre des décisions concernant le dépistage et la prévention.

 

Développement:

En général, ce type de modèles sont souvent basés sur des facteurs de risque épidémiologiques et comportementaux standard. Il est fort possible que les nouveaux biomarqueurs ne soient évalués que sur des sujets dans une étude de taille moyenne et ne puissent pas être mesurés sur la population entière, beaucoup plus grande que l’échantillon utilisée pour le précédent modèle. Les chercheurs pourraient directement estimer le modèle dans le nouvel ensemble de données, mais les résultats de ce modèle de prédiction basé uniquement sur un nombre limité de sujets, pourraient être très variables. Il faudrait envisager d’utiliser beaucoup plus d’informations/de caractéristiques (variables), afin d’obtenir une meilleur précision du modèle, pour un meilleur apprentissage.

Avec l’ajout d’un certain nombre d’informations externes supplémentaires, des recherches approfondies ont été menées, et ce, dans le but d’améliorer les modèles de prévision des risques. Les informations externes peuvent être utilisées pour combiner les estimations d’études antérieures avec les coefficients de régression qui sont estimés dans le nouvel ensemble de données. 

Plusieurs solutions sont proposer afin d’améliorer la qualité des modèles prédictifs:

  • Méthodes de régression
  • Méthode standard de Bayes
  • Maximum de vraisemblance contraint
  • Méthode informative complète de Bayes
  • Transformation approach
  • Méthode de plug-in de régression logistique
  • Etude de simulation

Dans cette article un exemple d’application est mis en avant sur le cancer de la prostate. Les chercheurs illustrent leur méthodologie en augmentant le risque d’essai de prévention du cancer de la prostate. Pour avancer dans la recherche, les chercheurs se basent sur certaines caractéristiques et sur les antécédents familiaux, à savoir s’il y a déjà eu des cas de cancer de la prostate dans la famille, l’âge de l’individu, son origine, le résultat d’une potentielle biopsie antérieure… 

 

Résultats:

Grâce aux différentes méthodes statistiques mises en places par les chercheurs dans cette étude, ils nous démontrent qu’avec les différentes méthodes de modélisation, ils parviennent à améliorant le calculateur de risque PCPT pour le cancer de la prostate de haut grade.

 

Conclusion:

Le gain d’efficacité dans le modèle d’intérêt élargi dépend de la taille de l’échantillon qui est utilisée pour construire le modèle établi et de la taille de l’échantillon qui est utilisée pour estimer le modèle élargi d’intérêt.

Dans les études de simulation réalisés par les chercheurs, les modèles établis sont basés sur de grands ensembles de données avec 10000 observations alors que les ensembles de données actuels sont très petits. De grandes bases de données comme celles-ci permettent de rendre les modèles et donc les prédictions plus performantes. Cependant, lorsque la taille de l’échantillon dans l’ensemble de données est insuffisamment grande pour estimer le modèle élargi , les méthodes ne permettent pas d’améliorer la prédiction par rapport à la régression directe, comme c’était le cas dans l’exemple du cancer de la prostate. Les résultats numériques apportés apportent une meilleure précision des estimations des coefficients.

Enfin, les différentes méthodes statistiques sont de plus en plus utilisées dans un grand nombre de secteur, mais surtout dans le domaine médicale où l’on peut prédire si une personne est susceptible ou non de développer certaines maladies.

 

Références:

  • Chatterjee, N., Chen, Y.‐H., Maas, P. et Carroll, RJ (2016) Estimation du maximum de vraisemblance contrainte pour l’étalonnage du modèle à l’aide d’informations de niveau résumé provenant de sources externes de Big Data. Confiture. Statist. Ass., 111, 107 – 117.
  • Cheng, W., Taylor, JMG, Vokonas, PS, Park, SK et Mukherjee, B . (2018) Amélioration de l’estimation et de la prédiction dans la régression linéaire intégrant des informations externes provenant d’un modèle réduit établi. Statist. Med., 37, 1515-1530.
  • D’Agostino, R. B. , Grundy, S., Sullivan, LM, Wilson, P. et pour le CHD Risk Prediction Group (2001) Validation des scores de prédiction de la maladie coronarienne de Framingham: résultats d’une enquête sur plusieurs groupes ethniques . Confiture. Med. Ass., 286, 180 – 187
  • Firth, D. (1993) Réduction du biais des estimations du maximum de vraisemblance. Biometrika, 80, 27 – 38
  • Gail, MH, Brinton, LA, Byar, DP, Corle, DK, Vert, S. B ., Schairer, C et Mulvihill, JJ (1989) Projeter probabilités individualisées de développer un cancer du sein pour les femmes blanches qui sont en cours d’ examen par année . J. Natn. Cancer Inst., 81, 1879-1886.
  • Gelman, A., Jakulin, A., Pittau, MG et Su, Y.‐S. (2008) Une distribution a priori par défaut peu informative pour les modèles logistiques et autres modèles de régression. Ann. Appl. Statist., 2, 1360-1383.
  • Grill, S., Ankerst, DP, Gail, MH, Chatterjee, N. et Pfeiffer, RM (2017) Comparaison des approches pour incorporer de nouvelles informations dans les modèles de prédiction des risques existants. Statist. Med., 36, 1134 – 1156.
  • Grill, S., Fallah, M., Leach, RJ, Thompson, IM, Hemminki, K. et Ankerst, DP (2015) Une méthode simple à utiliser intégrant des marqueurs génomiques dans les outils de prédiction du risque de cancer de la prostate a facilité la validation future. J. Clin. Epidem., 68, 563 – 573.
  • Gunn, LH et Dunson, D. B . (2005) Une approche de transformation pour incorporer des contraintes monotones ou unimodales. Biostatistique, 6, 434 – 449.
  • Heinze, G., Ploner, M., Dunkler, D. et Southworth, H. (2013) Le biais de Firth a réduit la régression logistique. Version du package R 1.21.
  • Heinze, G. et Schemper, M. (2002) Une solution au problème de la séparation dans la régression logistique. Statist. Med., 21, 2409 – 2419.
  • Imbens, GW et Lancaster, T. (1994) Combinant des données micro et macro dans des modèles microéconométriques. Rev. Econ. Stud., 61, 655 – 680.
  • Mealiffe, ME, Stokowski, RP, Rhees, B . K., Prentice, RL, Pettinger, M. et Hinds, DA (2010) Evaluation de la validité clinique d’un modèle de risque de cancer du sein combinant des informations génétiques et cliniques. J. Natn. Cancer Inst., 102, 1618 – 1627.
  • Monahan, J. et Stefanski, LA (1992) Approximations de mélange à échelle normale de F * (z) et calcul de l’intégrale logistique-normale. In Handbook of the Logistic Distribution (éd. N. Balakrishnan). New York: CRC Press.
  • Newcombe, PJ, Reck, B . H., Sun, J., Platek, GT, Verzilli, C., Kader, AK, Kim, S.‐T., Hsu, F.‐C., Zhang, Z., Zheng, SL, Mooser, VE, Condreay, LD, Spraggs, CF, Whittaker, JC, Rittmaster, RS et Xu, J. (2012) Une comparaison des approches bayésiennes et fréquentistes pour incorporer des informations externes pour la prédiction du risque de cancer de la prostate. Genet. Epidem., 36, 71 – 83.
  • Qin, J. (2000) Combinant les probabilités paramétriques et empiriques. Biometrika, 87, 484 – 490.
  • Qin, J., Zhang, H., Li, P., Albanes, D. et Yu, K. (2015) Utilisation d’informations sur la prévalence de la maladie spécifiques à une covariable pour augmenter la puissance des études cas-témoins. Biometrika, 102, 169 – 180.
  • Satten, GA et Kupper, LL (1993) Inférences sur les associations exposition-maladie à l’aide d’informations sur la probabilité d’exposition. Confiture. Statist. Ass., 88, 200 – 208.
  • Steyerberg, EW, Eijkemans, MJC, Van Houwelingen, JC, Lee, KL et Habbema, JDF (2000) Modèles pronostiques basés sur la littérature et les données individuelles des patients dans l’analyse de régression logistique. Statist. Med., 19, 141 – 160.
  • Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T., Gonen, M., Obuchowski, N., Pencina, MJ et Kattan, MW (2010) Assessing the performance of prediction models: a framework for traditional and novel les mesures. Epidémiologie, 21, 128 – 138.
  • Thompson, IM, Ankerst, DP, Chi, C., Goodman, PJ, Tangen, CM, Lucia, MS, Feng, Z., Parnes, HL et Coltman, CA (2006) Évaluation du risque de cancer de la prostate: résultats du cancer de la prostate essai de prévention. J. Natn. Cancer Inst., 98, 529 – 534.
  • Tomlins, SA, Day, JR, Lonigro, RJ, Hovelson, DH, Siddiqui, J., Kunju, LP, Dunn, RL, Meyer, S., Hodge, P., Groskopf, J., Wei, JT et Chinnaiyan, AM (2015) Urine TMPRSS2: ERG plus PCA3 pour l’évaluation individualisée du risque de cancer de la prostate. EUR. Urol., 70, 45 – 53.
  • Truong, M., Yang, B . et Jarrard, DF (2013) Vers la détection du cancer de la prostate dans l’urine: une analyse critique. J. Urol., 189, 422 – 429.