banner
Maison / Nouvelles / Analyse des correspondances pour la réduction des dimensions, l'intégration par lots et la visualisation de
Nouvelles

Analyse des correspondances pour la réduction des dimensions, l'intégration par lots et la visualisation de

May 16, 2023May 16, 2023

Rapports scientifiques volume 13, Numéro d'article : 1197 (2023) Citer cet article

3634 accès

1 Citations

20 Altmétrique

Détails des métriques

Une réduction de dimension efficace est essentielle pour l'analyse d'ARN-seq (scRNAseq) unicellulaire. L'analyse en composantes principales (ACP) est largement utilisée, mais nécessite des données continues et normalement distribuées ; par conséquent, il est souvent associé à une transformation logarithmique dans les applications scRNAseq, ce qui peut fausser les données et masquer une variation significative. Nous décrivons l'analyse des correspondances (AC), une alternative basée sur le comptage à l'ACP. L'AC est basée sur la décomposition d'une matrice résiduelle chi carré, évitant la transformation logarithmique déformante. Pour remédier à la surdispersion et à la rareté élevée des données scRNAseq, nous proposons cinq adaptations de CA, qui sont rapides, évolutives et surpassent les CA et glmPCA standard, pour calculer les incorporations de cellules avec une précision de regroupement plus performante ou comparable dans 8 ensembles de données sur 9. En particulier, nous constatons que l'AC avec les résidus de Freeman-Tukey fonctionne particulièrement bien dans divers ensembles de données. D'autres avantages du cadre CA incluent la visualisation des associations entre les gènes et les populations cellulaires dans un "biplot CA" et l'extension à l'analyse multi-tables ; nous introduisons corralm pour la réduction de dimension multi-table intégrative des données scRNAseq. Nous implémentons CA pour les données scRNAseq dans le corral, un package R/Bioconductor qui s'interface directement avec les classes de cellules individuelles dans Bioconductor. Le passage de PCA à CA est réalisé grâce à une simple substitution de pipeline et améliore la réduction de dimension des ensembles de données scRNAseq.

Le séquençage d'ARNm unicellulaire (scRNAseq) mesure simultanément les niveaux de transcription des gènes dans des milliers de cellules individuelles, offrant une fenêtre sur la diversité transcriptionnelle et fonctionnelle des cellules dans un tissu ou une expérience. Ces ensembles de données complexes sont des ordres de grandeur plus grands que ceux rencontrés lors de l'analyse de données RNAseq "en masse" à partir d'échantillons de tissus. Bien que ces données à résolution fine aient le potentiel de révéler de nouvelles découvertes biologiques, les données scRNAseq présentent une rareté, un bruit et des artefacts techniques au-delà de ceux observés pour les échantillons d'ARN en vrac1,2, nécessitant un prétraitement et une normalisation spécifiques à scRNAseq3,4. En règle générale, l'analyse scRNAseq comprend l'utilisation de la réduction de dimension pour atténuer le bruit et assurer la traçabilité informatique, mais le choix de la méthode influence considérablement les analyses, les résultats et les conclusions en aval3,5.

La sélection d'une méthode de réduction de dimension appropriée est importante ; une méthode efficace trouve une représentation des données qui minimise le bruit et la redondance, tout en découvrant des signaux significatifs qui révèlent des structures et des modèles latents dans les données6,7. Lorsqu'elles sont définies à partir de données scRNAseq, les représentations d'intégration à dimension réduite sont plus utiles lorsqu'elles préservent une variation significative et biologiquement pertinente ; sont robustes, ce qui signifie que la décomposition d'observations nouvelles mais similaires produit systématiquement un espace d'intégration similaire ; et généraliser et transférer vers de nouvelles données, permettant de projeter de nouvelles observations issues de processus biologiques similaires dans le même espace latent.

Les comptages de ScRNAseq sont généralement modélisés comme distribués de manière multinomiale et sont souvent approximés comme un binôme négatif ou Poisson2, reflétant le fait que les données ne sont ni continues ni approximativement gaussiennes. En tant que tel, l'utilisation de l'analyse en composantes principales (PCA) nécessite que les données de comptage scRNAseq discrètes et clairsemées soient transformées avant la réduction de dimension avec cette méthode6. L'ACP est une méthode de réduction de dimension linéaire qui obtient une représentation de données de faible dimension le long d'axes linéaires orthogonaux de telle sorte que la proportion de variance prise en compte sur chaque axe est maximisée dans l'espace euclidien4,8,9,10,11. Étant donné que l'ACP convient le mieux aux données continues qui sont approximativement distribuées normalement, elle peut présenter des artefacts lorsqu'elle est appliquée à des données avec des gradients ou des données non continues (telles que des comptages); un de ces artefacts, appelé effet "arche" ou "fer à cheval", se produit lorsque la PCA est appliquée aux données scRNAseq sans transformation logarithmique4,6,12. Ainsi, dans la pratique, et malgré les problèmes connus liés à l'application de la transformation logarithmique aux données de comptage scRNAseq2,13,14, la plupart des flux de travail à cellule unique commencent par une transformation log(x + 1) de la matrice de comptage, puis utilisent l'ACP pour décomposer le résultat données "logcounts"3. L'utilisation de logcounts a une justification théorique médiocre et, dans certains cas, peut masquer une variation significative2,14, mais les incorporations de dimensions réduites résultantes des données de l'ACP sont néanmoins utilisées dans le clustering scRNAseq, l'analyse de trajectoire et la classification des types de cellules3. Plusieurs approches de réduction de dimension adaptées aux comptages scRNAseq ont été proposées, y compris des méthodes comme ZINB-WaVE, la première méthode appropriée pour une utilisation avec des comptages qui est basée sur un modèle binomial négatif gonflé à zéro pour la décomposition des comptages, et une analyse factorielle gonflée à zéro ( ZIFA)2,15,16,17. Pourtant, l'ACP reste la méthode la plus largement utilisée en grande partie en raison de sa simplicité, de sa rapidité et de son efficacité de calcul. Dans une comparaison de 18 méthodes de réduction de dimension, l'ACP s'est classée en tête lorsque la précision et les performances de l'analyse en aval ont été prises en compte avec l'évolutivité de calcul18.

Les méthodes classiques de factorisation matricielle, y compris l'ACP, sont des exemples de l'approche générale du diagramme de dualité proposée par Benzécri et l'école française de statistiques multivariées dans les années 19708,19,20,21,22,23, qui pivote l'attention de la matrice sous forme de colonnes de variables fixes à la matrice en tant qu'opérateur entre les espaces de produits internes, unifiant les méthodes multivariées classiques comme l'ACP avec les méthodes de noyau modernes dans le même cadre8,21. Une autre méthode de factorisation matricielle qui émerge dans le cadre du diagramme de dualité est l'analyse des correspondances (CA), une méthode de réduction de dimension rapide appropriée pour les données non négatives basées sur le nombre et peut identifier les relations entre les types de données catégorielles qui sont populaires parmi les écologistes pour analyser les espèces. matrices de comptage d'abondance par site8,24. En pratique, PCA est souvent calculé par décomposition en valeurs singulières (SVD) de données centrées sur les colonnes ou normalisées par score Z (Fig. 1A)4,25 et CA est calculé par SVD des résidus de Pearson pour révéler les associations ligne-colonne qui s'écarter des attentes26. Les principaux composants de CA répartissent la co-dépendance entre les lignes et les colonnes de sorte qu'un poids plus élevé indique une dépendance ou une association plus forte entre la ligne et la colonne ; pour les données scRNAseq, les composants principaux de CA peuvent identifier la co-dépendance entre le nombre d'expressions géniques et des cellules particulières. De ce point de vue, la principale différence est l'espace dans lequel les données sont transformées puis décomposées. Alors que PCA partitionne la variance dans l'espace euclidien, CA partitionne la table du chi carré de contingence totale le long de composantes additives linéaires27. CA a une longue tradition dans divers contextes et disciplines, y compris la linguistique, la recherche commerciale et marketing et l'archéologie26,28, où elle est appliquée et optimisée pour les données de comptage volumineuses et clairsemées. L'AC a également été appliquée en bioinformatique pour effectuer une analyse de l'utilisation des codons29,30 ; analyser les données de transcriptomique des puces à ADN31 ; intégrer les étiquettes GO aux données des microréseaux32 ; et d'analyser les données métagénomiques et microbiomes33. Dans made4, Culhane et al. CA mis en œuvre pour les données de microréseau et de séquence d'ARN en vrac34,35,36. Nous proposons maintenant son application à l'analyse de scRNAseq.

L'analyse des correspondances (AC) est une alternative à l'ACP pour les données de comptage qui est robuste pour une utilisation avec des comptages bruts et log-normalisés. (A) Aperçu graphique des étapes de réduction de dimension avec factorisation matricielle, y compris CA et PCA standard. Le CA et le PCA standard peuvent être calculés avec une décomposition en valeurs singulières (SVD) des résidus de Pearson ou du score Z, respectivement. (B) Les tracés montrent les deux premiers composants générés à partir de PCA (sur logcounts ; à gauche) et de CA (corral on counts ; à droite) appliqués à un mélange synthétique d'ARNm de référence avec 8 groupes (données distribuées dans le package CellBench R ; adapté de 3) . Les "cellules" sont colorées par groupe. CA résout les groupes en clusters, tandis que PCA standard est piloté par un gradient dans le deuxième composant et ne parvient pas à résoudre les groupes. (C) Les tracés montrent les deux premiers composants générés par CA (corral ; rangée du haut) et PCA (rangée du bas) sur les deux comptages (colonne de gauche) et les logcounts (colonne de droite) de l'ensemble de données Zhengmix4eq, qui comprend environ 4 000 PBMC purifiés dans environ mélanges égaux. Les cellules sont colorées par type. CA est robuste pour une utilisation avec des comptages ou des logcounts, tandis que PCA sur les comptages entraîne un effet de fer à cheval (arche). (D) CA (vert) et PCA (violet) ont été appliqués aux comptages (colonne de gauche) et aux logcounts (colonne de droite) de six ensembles de données de référence (SCMixology ; Zhengmix). Les intégrations de toutes les approches ont été utilisées comme données d'entrée pour le clustering NNGraph, les performances de récupération des clusters publiés étant évaluées à l'aide de l'indice Rand ajusté (ARI). CA atteint ou dépasse constamment les performances de PCA. Les cercles orange indiquent l'ARI le plus élevé atteint dans chaque ensemble de données.

En se concentrant sur les problèmes de comptage de scRNAseq à transformation logarithmique lors de l'application de l'ACP, Townes et al.2, Hafemeister et Satija13, et Lause et al.14 ont présenté des approches d'analyse de scRNAseq basées sur la normalisation résiduelle de Pearson comme alternative à la transformation logarithmique déformante. Townes et al.2 ont proposé glmPCA, une généralisation de l'ACP qui minimise la déviance plutôt que l'erreur quadratique moyenne (MSE) et prend en charge les fonctions de liaison non canoniques, et qui peut être approchée avec l'ACP de Pearson ou les résidus de déviance2. Lause et al. ont proposé la normalisation analytique des résidus de Pearson14, étendant les travaux de Hafemeister et Satija, qui ont utilisé une approche basée sur la régression pour calculer les résidus de Pearson13. Lause et al. cité nos ateliers open source sur les bioconducteurs qui décrivent l'AC ; les relations entre CA, PCA et SVD ; et leur application dans les données scRNAseq comme support que glmPCA de Townes et al.,2, SCTransform de Hafemeister et Satija13 et leur approche sont CA ou très proches de CA14,37. Cependant, CA, qui peut être calculé par SVD sur les résidus de Pearson standardisés, peut ne pas être l'approche la plus appropriée lorsqu'il y a une surdispersion dans le tableau de contingence38.

Nous proposons et évaluons cinq adaptations de CA pour traiter la surdispersion dans les comptages de scRNAseq. Nous comparons les performances de chacun d'eux par rapport à l'AC standard et à glmPCA2, une méthode populaire dans le domaine. En particulier, nous constatons que l'AC avec les résidus de Freeman-Tukey, une statistique alternative du chi carré, est particulièrement performante dans une variété de cas de test. Étant donné que le regroupement et la caractérisation des cellules sont un élément clé de la plupart des flux de travail scRNAseq, nous nous sommes fixé comme objectif de la tâche d'analyse comparative de trouver des représentations d'intégration qui facilitent l'identification et l'annotation de populations complexes de cellules. Nous montrons que le biplot CA fournit une interprétation géométrique des caractéristiques et des objets dans le même espace, ce qui facilite à son tour l'analyse exploratoire efficace des données et l'interprétation des clusters. Nous avons implémenté une CA standard et adaptée pour scRNAseq in corral, un package R/Bioconductor qui s'interface directement avec les classes Bioconductor (y compris SingleCellExperiment). Conçu pour une évolutivité informatique, corral est rapide et performant par rapport à PCA et à d'autres méthodes de réduction de dimension, y compris glmPCA. Le passage de PCA à CA avec corral est réalisé grâce à une simple substitution de pipeline et améliore la réduction de dimension des ensembles de données scRNAseq.

L'analyse de correspondance standard (CA) place le nombre de lectures de scRNAseq dans un cadre d'analyse de tableau de contingence et, sous sa forme canonique, peut être conceptualisée comme une procédure en deux étapes (graphiquement décrite à la Fig. 1A ; détaillée dans "Méthodes"). La matrice de comptage est d'abord transformée en résidus chi carré de Pearson, et la matrice résiduelle résultante est ensuite factorisée avec une décomposition en valeurs singulières (SVD).

L'analyse CA de scRNAseq ne nécessite pas, mais est compatible avec, des comptages de lecture transformés en log (logcounts). L'ACP, qui a été largement utilisée, nécessite une transformation des données et est donc généralement appliquée aux données de comptage logarithmique, même si la transformation logarithmique des comptages de scRNAseq déforme la représentation de l'espace latent de sorte que la première dimension est déterminée par la rareté des cellules individuelles ou le nombre de caractéristiques avec zéro comptage observé (« fraction zéro »)2. Étant donné que nous proposons CA comme une alternative plus appropriée à PCA pour trouver des incorporations de cellules, nous avons comparé CA à la PCA4 basée sur la corrélation largement utilisée.

Nous avons appliqué à la fois CA et PCA à un ensemble de données d'analyse comparative scRNAseq de vérité au sol (sur les comptages et les logcounts) obtenu par séquençage CEL-seq2 de mélanges de pseudo-cellules comprenant des ARNm de huit groupes distincts39. La figure 1B montre les deux premiers composants principaux pour PCA et CA. Le premier composant PCA a clairement séparé les cellules de trois des huit groupes, mais PC2 ne capture qu'un gradient au sein des groupes. En revanche, l'AC a clairement regroupé et séparé tous les groupes au sein de deux composants. De même, les résultats dans les PBMC purifiés (ensemble de données d'analyse comparative Zhengmix4eq) ont démontré que l'AC peut être appliquée directement aux comptages ou aux logcounts et permet toujours d'obtenir un bon regroupement et une bonne séparation, tandis que l'APC sur les comptages produit un effet "arc" ou "fer à cheval", résultant de la présence d'un ordre séquentiel latent ou gradient12,25. PCA sur les logcounts a fonctionné de la même manière que CA sur les comptages ou les logcounts.

CA est robuste lorsqu'il est appliqué aux données de décompte ou de décompte de journaux, ce qui élimine le besoin de transformation de journal et évite les problèmes associés. Nous avons comparé les performances des quatre configurations de pipeline présentées à la Fig. 1C (CA et PCA sur les comptages et les logcounts) sur six ensembles de données de référence de référence - trois ensembles de données scRNAseq de SCMixology (mélange cellulaire connu de trois lignées cancéreuses séquencées avec trois technologies)39 et trois Ensembles de données Zhengmix PBMC40,41. (Ensembles de données répertoriés dans la section Analyse comparative de "Méthodes"). La récupération des grappes basée sur les types de cellules annotées dans l'étude a été évaluée à l'aide de l'indice Rand ajusté (ARI), qui évalue la similitude entre deux ensembles de partitions de données (Fig. 1D). Dans toutes les comparaisons, CA surpasse ou égale les performances de PCA (le cercle orange indique l'ARI le plus élevé par ensemble de données).

L'AC peut être influencée par des « objets rares » ou des valeurs aberrantes38. En raison de la forte hétérogénéité sous-jacente de l'expression génique au sein et entre les différents types de cellules, les données scRNAseq incluent souvent des valeurs aberrantes biologiquement "réelles" par opposition aux artefacts dus aux données bruyantes. Par exemple, les cellules sécrétoires professionnelles ont un profil biologique distinct souvent entraîné par une production extraordinairement élevée d'une ou deux protéines, telles que l'insuline dans les cellules des îlots pancréatiques ou l'immunoglobine dans les cellules immunitaires. De même, les cellules sénescentes ou quiescentes diffèrent dans le profil d'expression génique par rapport aux cellules à division rapide ou aux cellules tumorales de haut grade.

Nous proposons et évaluons cinq adaptations uniques de CA pour traiter la surdispersion dans le nombre de scRNAseq. Au total, six méthodes CA (CA standard et les cinq adaptations) ont été appliquées à neuf ensembles de données, y compris les trois ensembles de données d'analyse comparative des PBMC humaines Zhengmix, ainsi que des cellules du pancréas humain, du cerveau humain et de la queue de Xenopus (tableau 1). Les performances de récupération des clusters sur les représentations d'intégration de cellules générées à partir de chaque méthode spécifique ont été comparées et comparées en référence à glmPCA2, sur la base de la similarité de partition des nouveaux clusters avec les populations de cellules annotées d'origine de chaque ensemble de données (mesurées avec ARI ; détaillées dans "Méthodes" - Analyse comparative).

Les cinq adaptations de l'AC se répartissent en trois approches générales (Fig. 2A). La première classe d'approches consistait à appliquer explicitement une transformation de stabilisation de la variance à la matrice de comptage avant de calculer les résidus de Pearson. Lause et al.14 ont discuté de la transformation de stabilisation de la variance par rapport à la normalisation résiduelle de Pearson, bien que dans leur étude, ils n'aient pas combiné la stabilisation de la variance et la normalisation résiduelle de Pearson avant la décomposition de la matrice. Ils ont signalé que le degré de correction de la seule transformation de stabilisation de la variance était insuffisant pour les données scRNAseq dans leur configuration de pipeline et ont constaté que seule la normalisation avec les résidus analytiques de Pearson était plus efficace que la seule application de la stabilisation de la variance14. Étant donné que les comptages de scRNA-seq sont souvent approximés sous forme de distribution de Poisson, nous avons considéré trois transformations de stabilisation de la variance qui sont généralement appliquées aux données de comptage. Ces trois transformations basées sur la racine carrée proviennent toutes de l'observation de RA Fisher selon laquelle effectuer une transformation arccosinus sur la racine carrée des probabilités multinomiales donne des angles approximativement normalement distribués sur une hypersphère42. La première était la transformation racine carrée des données de comptage (ligne 3 de la figure 2A), qui a été utilisée pour corriger la surdispersion dans les comptages de Poisson43. La seconde est la transformation de comptage stabilisatrice de la variance d'Anscombe (ligne 4 de la figure 2A), proposée à l'origine en 1948 pour être utilisée avec des données de Poisson, binomiales et binomiales négatives44. Troisièmement, nous avons utilisé la transformation de comptage stabilisant la variance de Freeman-Tukey (ligne 5 de la figure 2A), proposée à l'origine en 1950, également pour Poisson et d'autres données de comptage45.

Adaptations CA pour remédier à la surdispersion dans les données de comptage. (A) Tableau résumant la procédure CA standard et cinq adaptations pour traiter la surdispersion. Le premier ensemble (lignes 1 et 2) comprend des méthodes qui n'impliquent aucune transformation en dehors du calcul des résidus du chi carré. Le deuxième ensemble (lignes 3 à 5) présente des transformations de stabilisation de la variance effectuées sur les comptages avant l'AC standard. La troisième approche (ligne 6) lisse la matrice résiduelle du chi carré avec une "déflation de puissance" mineure avant la décomposition avec SVD. (B) Tableau des performances de récupération de cluster NNGraph obtenues par chaque méthode (lignes), dans neuf ensembles de données (colonnes), indiquant l'ARI maximum sélectionné sur une gamme de PC (résultats complets de l'ARI par PC illustrés à la Fig. 2C), avec ARI à partir de dix séries de glmPCA ont été moyennés avant de sélectionner le maximum. L'ARI le plus élevé (à deux décimales) dans chaque ensemble de données est encerclé, et les grappes de cellules dans les ensembles de données d'origine sont utilisées comme regroupements de référence. Les résidus de Freeman-Tukey présentent les meilleures performances globales, avec l'ARI le plus élevé dans 6 des 9 ensembles de données. (C) Parcelle d'ARI par nombre de composants dans chacun des neuf ensembles de données (identique à B), coloré par méthode. Les résultats pour glmPCA (gris) incluent dix graines.

Nos résultats indiquent que la stabilisation de la variance améliore les performances de l'AC standard (classique). La stabilisation de la variance des comptages avant le calcul des résidus de Pearson a fourni de grands gains dans le regroupement en aval avec des augmentations d'ARI de 0,4 dans deux études (Zhengmix4uneq, Aztekin Xenopus tail) ; la transformation en racine carrée avant l'AC augmente l'ARI dans 7 ensembles de données, tandis que la transformation en comptages d'Anscombe ou en comptages de Freeman-Tukey a augmenté l'ARI dans chaque ensemble de données par rapport à l'AC standard (sans stabilisation de la variance des comptages avant le calcul des résidus de Pearson). En effet, la transformation de comptage de stabilisation de la variance d'Anscombe atteint l'ARI le plus élevé observé dans 1 des 9 ensembles de données de test (pancréas : Lawlor) et la transformation de comptage de stabilisation de la variance de Freeman-Tukey a obtenu les meilleures performances globales dans 3 des 9 ensembles de données (Zhengmix4uneq ; pancréas : Muraro, Lawlor ). Bien que la transformation du nombre de racines carrées n'ait pas surpassé les deux autres transformations dans aucune des comparaisons, son ARI était à moins de 0,05 des deux autres transformations dans 7 des 9 ensembles de données. De plus, dans les ensembles de données sur le pancréas, la transformation du nombre de stabilisation de la variance couplée à l'AC standard a produit l'ARI le plus élevé dans l'ensemble, surpassant la glmPCA.

La deuxième variante que nous avons considérée est la "déflation de puissance" en tant que méthode de lissage des données. La déflation de puissance gère les valeurs aberrantes extrêmes dans la matrice résiduelle du chi carré en élevant toutes les valeurs résiduelles transformées à une puissance, α, avant d'effectuer SVD, tout en préservant le signe (rangée inférieure de la figure 2A). Conceptuellement, cette procédure est similaire à la transformation de l'échelle de Tukey46 et a un effet de lissage sur la matrice des distances du chi carré, réduisant l'impact des valeurs aberrantes tout en préservant l'ordre des valeurs. Pour obtenir un effet de lissage "doux", nous avons considéré \(\mathrm{\alpha }\in \left[0.9, 0.98\right]\) (données non présentées) et présentons les résultats pour \(\mathrm{\alpha }= 0,9\) sur la Fig. 2. Cette approche est également similaire à la transformation classique de stabilisation de la variance en racine carrée pour les comptages de Poisson, avec le cas particulier où \(\mathrm{\alpha }= 0,5\), mais elle diffère en ce que la transformation est appliqué à la matrice résiduelle du chi carré plutôt qu'à la matrice de comptage. Dans les neuf ensembles de données, cette approche de lissage de déflation de puissance a fonctionné de manière comparable ou supérieure à l'AC standard, bien que son impact sur les performances de l'AC ait été inférieur à la transformation de comptage stabilisant la variance.

Troisièmement, nous avons considéré une autre statistique du chi carré qui est mieux adaptée pour compter les données avec des niveaux élevés de parcimonie et de surdispersion. L'AC avec résidus de Freeman-Tukey (CA-FT) a été appliquée aux données de sites archéologiques, où elle a montré un effet de stabilisation de la variance et a surpassé l'AC standard (SVD des résidus de Pearson), dans l'analyse de données d'artefacts clairsemées et surdispersées (nombre d'artefacts archéologiques par site)45,47,48. Les résidus de Pearson et les résidus de Freeman-Tukey sont tous deux membres de la famille Cressie-Read de statistiques de divergence de puissance pour tester la qualité de l'ajustement dans les données de comptage à distribution multinomiale, et lorsqu'ils sont mis au carré, les deux résidus sont des variables aléatoires distribuées du chi carré47,49. Nous avons constaté que CA-FT est bien adapté pour les comptages de scRNAseq (ligne 2 de la figure 2A), surpassant l'AC standard dans les neuf ensembles de données et ses performances étaient comparables à (ARI à moins de 0,02) ou supérieures à glmPCA dans 8 analyses comparatives sur 9. ensembles de données. Dans la plupart des ensembles de données, CA-FT avait également une précision de regroupement (ARI) supérieure ou comparable à la CA standard avec transformation stabilisatrice de la variance. Le CA-FT a obtenu l'ARI le plus élevé dans 6 ensembles de données sur 9. Contrairement à CA standard, nous avons observé peu d'avantages à combiner CA-FT avec une transformation stabilisatrice de variance (racine carrée, Anscombe ou Freeman – Tukey) (Fig. S1); alors que les performances de CA standard s'améliorent considérablement avec la transformation stabilisatrice de variance, CA-FT s'ajuste et convient pour être utilisé avec des données surdispersées.

La sélection des composants peut grandement influencer l'analyse de regroupement de cellules en aval, nous avons donc considéré les performances de regroupement en fonction du nombre de composants sélectionnés (Figs. 2C, S2). La capacité à récupérer des grappes "connues" (mesurées avec ARI entre la sortie de regroupement et les types de cellules publiés) était plus élevée pour les mélanges plus simples de types de cellules connus et purifiés (ensembles de données Zhengmix). Pour les tissus complexes examinés (cerveau ; pancréas ; queue de xénope), le "vrai" nombre de types de cellules est estimé expérimentalement à partir des données scRNAseq. Il y avait une hétérogénéité dans le nombre de types de cellules décrites dans le même tissu entre différentes études, peut-être parce que les annotations cellulaires peuvent être attribuées à faible résolution (par exemple, cellules T) ou à haute résolution (par exemple, cellules T CD4, cellules CD8 épuisées). lymphocytes T, etc.), en fonction de la question d'étude particulière. Par exemple, les ensembles de données sur le pancréas Lawlor, Muraro et Baron ont décrit huit, onze et quatorze types de cellules dans leurs analyses respectives (tableau 1). Nous avons observé une association entre le nombre de composants et la complexité de la tâche de clustering. Plus de composants peuvent capturer plus de variation totale dans les données et ainsi augmenter les performances lors de l'exécution d'annotations à plus haute résolution. La figure 2C montre que plus de composants ont généralement augmenté l'ARI dans des tissus plus complexes. Cependant, pour les ensembles de données où les annotations de type de cellule de référence sont de résolution inférieure (moins de types de cellules), l'inclusion de plus de composants pourrait réduire l'ARI puisque leurs résultats seront de résolution plus élevée (plus de types de cellules) et donc techniquement moins concordants avec la référence d'origine. Cela révèle une limite des approches actuelles de benchmarking. Une nouvelle méthode pourrait trouver des groupes biologiquement significatifs, mais fonctionnerait mal si elle était notée à l'aide de l'ARI sur des ensembles de données de référence à faible résolution. Nous avons observé dans nos résultats que les ensembles de données Lawlor et Darmanis, tous deux annotés à une résolution inférieure, affichaient la plus forte baisse des performances de clustering ARI lorsque davantage de PC étaient inclus.

En revanche, il y avait peu de gain et, pour certains, une réduction de l'ARI avec plus de composants dans les ensembles de données Zhengmix, qui comprennent des combinaisons de types de cellules PBMC distincts triés et purifiés avant le séquençage. Dans des ensembles de données simples, l'inclusion de composants supplémentaires au-delà de ceux qui capturent suffisamment la variance biologique peut ajouter du bruit stochastique, technique ou systématique dans le système. L'analyse comparative de chacune des méthodes avec un classement par ARI maximum était robuste au nombre de composants ; CA-FT a toujours été le plus performant, que les trente ou cinquante premiers (Figs. S2, 2B) composants aient été inclus dans le clustering en aval.

CA, CA-FT et d'autres variantes génèrent un résultat presque déterministe qui est reproduit de manière stable. En revanche, la glmPCA n'est pas déterministe et, par conséquent, les résultats peuvent varier considérablement lorsque la méthode est réexécutée sur le même ensemble de données (Figs. 2C et S3). Pour la reproductibilité, nous avons testé dix initiations aléatoires de graines de glmPCA (Fig. 2C), ce qui a révélé que les résultats de glmPCA sont cohérents pour des ensembles de données plus simples, mais dans d'autres ensembles de données, tels que l'ensemble de données de la queue de Xenopus, les performances varient considérablement entre les itérations. Dans l'ensemble de données sur le pancréas de Lawlor, une itération a échoué, ce qui suggère que les résultats dépendaient quelque peu de la découverte d'une "graine porte-bonheur". Dans des ensembles de données plus simples, tels que Zhengmix, toutes les méthodes ont généré des scores ARI élevés et les résultats glmPCA étaient cohérents entre les exécutions individuelles (Fig. 2C). Cependant, il y avait une plus grande variation dans les performances de la glmPCA avec l'augmentation de la complexité des données. Pour chaque ensemble de données, nous présentons la moyenne de l'ARI maximum atteint dans chacune des 10 séries de glmPCA.

Les variations de CA adaptées à la surdispersion surpassent la norme CA ou glmPCA dans le regroupement en aval (Fig. 2B). Parmi les approches que nous avons envisagées, CA-FT était la plus performante, surpassant CA standard avec une transformation stabilisatrice de la variance et l'approche de déflation de puissance.

Le biplot CA fournit un cadre naturel pour l'interprétation des clusters, mettant en évidence les relations biologiquement significatives entre les modèles d'expression génique et les populations cellulaires, et peut être étendu pour guider la sélection des caractéristiques. Chaque compte transformé (résiduel) dans une matrice CA a une interprétation intuitive, car il s'agit de la statistique de test du chi carré pour la force d'association entre une ligne particulière (expression d'un gène) et une colonne (cellule). La matrice CA capture les associations les plus fortes entre l'expression des gènes et les cellules, mettant en évidence les contrastes fonctionnels par cellules individuelles et par sous-populations de cellules. Les biplots visualisent les associations entre les caractéristiques et les objets, ou dans ce cas, les gènes et les cellules. Plutôt que d'examiner individuellement les incorporations d'entités et d'objets, le biplot place les deux ensembles d'incorporations sur les mêmes axes, révélant à la fois les associations qui peuvent exister entre les lignes ou les colonnes séparément, ainsi qu'entre des lignes et des colonnes particulières6,50. La distance à l'origine indique l'ampleur de l'association ; la distance de rotation angulaire (similitude cosinus) reflète la similarité des cellules (ou des gènes) entre elles, ou l'association entre les cellules et les gènes.

Nous avons effectué une CA standard sur l'ensemble de données de référence Zhengmix8 PBMC, en traçant les deux premières dimensions des incorporations de cellules et de gènes résultantes (Fig. 3). Les 20 gènes ayant le poids le plus élevé selon la norme L2 dans les deux premières dimensions sont colorés en bleu, avec une étiquette de gène correspondante. Les populations de cellules sont colorées par type de cellule. Le biplot met en évidence les gènes qui ont de fortes associations avec et peuvent discriminer entre des populations cellulaires particulières. Par exemple, les cellules tueuses naturelles (NK) expriment de manière constitutive la granulysine, codée par le gène GNLY, et bien qu'elles ne soient pas des producteurs exclusifs de granulysine, l'expression de GNLY dans d'autres cellules, comme les populations de lymphocytes T cytotoxiques, est déterminée par l'activation immunitaire51. Le biplot CA montre que GNLY a un poids élevé dans PC2 (loin de l'origine) et a une rotation angulaire similaire à celle de la population de cellules NK (similarité cosinus élevée). De manière correspondante, les parcelles de crête en médaillon de la figure 3 montrant des histogrammes de l'expression logarithmique dans les populations cellulaires confirment qu'elle est fortement exprimée spécifiquement dans la population de cellules NK.

Interprétation géométrique de l'analyse des correspondances : Illustrer les associations entre les gènes et les populations cellulaires. Biplot des deux premières dimensions de CA dans le jeu de données Zhengmix8. Les huit populations cellulaires sont colorées par type, tandis que les gènes sont étiquetés et colorés en bleu. Les vingt premiers gènes en poids (les plus éloignés de l'origine dans les deux premiers composants) sont présentés. Six gènes biologiquement significatifs sont mis en évidence et des diagrammes en crête illustrent leur expression logarithmique : GNLY est fortement exprimé dans les cellules NK, tandis que TYROBP est fortement exprimé dans les monocytes NK et CD14. LYZ et S100A8 sont tous deux des gènes spécifiques aux monocytes hautement exprimés. CD74 et HLA-DRA sont fortement exprimés dans les cellules B et modérément exprimés dans les monocytes, comme le montrent les ridgeplots respectifs.

Les protéines de liaison au calcium S100A8 et S100A9 (MRP8 et MRP14 respectivement) sont exprimées de manière constitutive dans les monocytes et les neutrophiles52,53. De même, dans le biplot CA de la figure 3, l'expression des deux gènes est fortement associée à la population de monocytes (même direction, grande ampleur), conformément à l'expression logarithmique relative de S100A8 parmi les populations cellulaires (graphique en médaillon). De même, LYZ code pour le lysozyme, une molécule hautement sécrétée par les monocytes54. Reflétant l'expression différentielle élevée du gène parmi la population de monocytes indiquée dans l'encart, le gène est loin de l'origine tout en étant également proche de la population cellulaire.

Les biplots informent également sur les gènes fortement et différentiellement exprimés dans plusieurs populations de cellules : TYROBP code pour une protéine adaptatrice de signalisation (KARAP/DAP12), qui a été initialement identifiée comme un composant de câblage dans la fonction antivirale et antitumorale des NK55. TREM-1, une protéine de surface associée à KARAP/DAP12, amplifie l'activation des monocytes, des macrophages et des granulocytes par les cytokines et les chimiokines après stimulation par le LPS55. Alors que d'autres cellules lymphoïdes et myéloïdes peuvent exprimer TYROBP, il a été principalement observé dans les NK, les monocytes/macrophages et les cellules dendritiques, ce qui correspond aux niveaux d'expression enrichis dans les types de cellules attendus : NK et monocytes. Le gène est projeté entre ces populations cellulaires ; les graphiques de crête d'expression confirment qu'il présente une expression élevée spécifiquement dans les populations de cellules NK et monocytes.

CD74 fait partie du complexe MHC de classe II, conformément à la fois à son positionnement biplot et à son graphique d'expression : angulairement, il se trouve le plus proche de la population de cellules B, mais est également légèrement tourné vers la population de monocytes56. De manière correspondante, l'expression de CD74 est observée dans les cellules de tous types mais est plus élevée dans les cellules B et dans certains monocytes. De même, HLA-DRA code pour la chaîne alpha de la protéine HLA-DR, qui est un récepteur de surface cellulaire dans le complexe MHC de classe II57. Les cellules B et les monocytes sont des cellules présentatrices d'antigènes professionnelles qui nécessitent toute la machinerie du complexe MHC de classe II. Ces gènes sont donc importants pour la fonction des deux types de cellules, et les deux gènes du biplot sont inclinés entre les types de cellules les plus pertinents, fournissant un résumé biologiquement significatif des associations entre les gènes et les sous-populations cellulaires.

Le biplot CA facilite l'analyse unifiée des incorporations de cellules et de gènes, qui peuvent éclairer l'interprétation des clusters et servir de base pour l'intégration avec (et l'extension) d'autres méthodes, telles que l'analyse de l'enrichissement de l'ensemble de gènes et la projection de données supplémentaires dans un espace latent partagé.

La nécessité d'intégrer des cellules provenant de plusieurs lots motive le raffinement et le développement continus de CA10,35,58. Notre adaptation multi-tables de CA, implémentée en tant que corralm dans le package corral R / Bioconductor, fonctionne à l'aide de résidus indexés ou de Freeman – Tukey et trouve une intégration multi-tables conjointe. Il convient aux tâches d'intégration légères à modérées (par exemple, différentes séquences de séquençage d'une expérience). Pour les tâches d'intégration complexes avec des effets de lot substantiels, corralm peut ne pas intégrer complètement les données car il s'agit d'une extension multi-tables de la réduction de dimension CA, et n'est pas optimisée pour l'intégration par lots et ne contient aucune étape d'intégration explicite. Étant donné que les intégrations CA peuvent être facilement remplacées par PCA dans un pipeline, nous avons cherché à savoir si le corralm d'inclusion dans l'intégration par lots améliorait les performances des méthodes d'intégration populaires qui incluent une étape PCA. Par exemple, les méthodes de correction par lots largement utilisées, FastMNN et Harmony, incluent une étape PCA. Nous avons comparé les performances de corralm avec des méthodes d'intégration par lots largement utilisées (Fig. 4), y compris LIGER59, MNNCorrect, Harmony et Seurat (pipeline suggéré comprenant la normalisation SCTransform et l'intégration CCA), qui ont toutes bien fonctionné dans les études comparatives récentes59,60,61, 62,63. Pour évaluer corralm en tant que substitut du pipeline PCA, nous avons inclus dans les comparaisons corralm couplé à Harmony et MNN.

L'adaptation multi-tables corralm de CA intègre des matrices de comptage sur des lots en trouvant un espace latent partagé de faible dimension. (A) Comparaison de neuf flux de travail d'intégration sur l'ensemble de données d'analyse comparative SCMixology (comprenant des mélanges de trois lignées cellulaires : H2228, H1975 et HCC827 qui ont chacun été utilisés avec trois protocoles de préparation de bibliothèques - Dropseq, Celseq2 et 10X - suivis du séquençage Illumina) la première colonne affiche les résultats sur les comptages et la deuxième colonne affiche les logcounts (le cas échéant). corralm est à la fois rapide et performant et peut être combiné avec des méthodes telles que Harmony (la 3e rangée) pour améliorer encore les performances. (B) Échelle de variance (SV) des lots représentant les trois plates-formes de préparation de la bibliothèque SCMixology, calculée sur les trois premiers composants de comptages et logcounts présentés à la Fig. 4A, colorés par lot. SV proche de 1 indique que les intégrations présentent une distribution similaire entre les lots. corralm, Harmony with corralm et SCTransform présentent un bon alignement des lots, tandis que Harmony with PCA affiche des valeurs éloignées de 1, ce qui suggère que les incorporations n'ont pas été intégrées avec succès dans les lots (comprend toutes les méthodes avec des composants classés). (C) Intégration par lots des données du pancréas. Pour chacune des méthodes sélectionnées, la colonne de gauche affiche les UMAP colorées par ensemble de données (lot), tandis que la colonne de droite affiche les UMAP colorées par type de cellule. (D) Le type ASWcell évalue l'intégration en fonction de la préservation du contexte biologique, tandis que 1—ASWbatch évalue l'intégration et se trouve respectivement sur les axes x et y. Pour toutes les méthodes, ceci est calculé sur 8 PC.

Tout d'abord, pour comparer les performances dans un scénario de vérité au sol clair et simple, chaque méthode a été appliquée à l'intégration par lots de l'ensemble de données d'analyse comparative SCMixology comprenant des profils scRNAseq à partir d'un mélange de trois lignées cellulaires (H2228 ; H1975 ; HCC827), obtenus en trois lots à l'aide différentes plateformes de préparation de librairies (Dropseq ; Celseq2 ; 10X)39. Deuxièmement, pour comparer les performances dans un exemple plus complexe et biologiquement réaliste, les méthodes ont été appliquées à l'intégration de trois ensembles de données sur le pancréas humain, obtenus sur différentes plates-formes dans des études distinctes : Baron, Lawlor et Muraro (détaillé dans "Méthodes" - Analyse comparative ci-dessous) .

Dans l'ensemble de données SCMixology, la "vérité terrain" est sans ambiguïté, et nous nous attendons à ce que la représentation de faible dimension aligne les données sur les lots et identifie les grappes de lignées cellulaires distinctes. La figure 4A montre les deux premiers composants de la représentation à dimension réduite des résultats de corralm, Harmony with corralm embeddings, SCTransform with CCA et MNNCorrect with PCA intègrent avec succès les lots tout en préservant les grappes de lignées cellulaires (Fig. 4A, rangées 1,3,4, 6). En revanche, Harmony (utilisant les intégrations PCA, telles que publiées) échoue à la fois à l'intégration des données et à la détection des clusters sur ces mêmes données (Fig. 4A, rangée 2). LIGER réussit la séparation des clusters mais échoue dans l'intégration, comme visualisé dans l'UMAP (Fig. 4A, rangée 5). Qualitativement, SCTransform avec CCA présente le meilleur alignement par lot et les grappes les plus serrées par type de cellule, mais son temps d'exécution est d'un ordre de grandeur plus lent que corralm et Harmony avec corralm. SCTransform avec CCA s'exécute en 45 s, tandis que corralm et Harmony avec corralm s'exécutent en 7 s pour la tâche équivalente, allouant un cœur d'ordinateur portable ("Méthodes" - Benchmarking). LIGER et MNNCorrect sont nettement plus lents, s'exécutant en environ 6 min et 1,25 min, respectivement. Bien que l'ensemble de données SCMixology soit relativement petit (1401 cellules), à grande échelle, cette différence de temps d'exécution aurait un impact significatif sur la vitesse globale d'un pipeline, démontrant ainsi un avantage de corralm et Harmony avec corralm.

Les mesures d'évaluation des clusters comme l'ARI évaluent si les clusters peuvent être ré-identifiés, mais ne quantifient pas directement la qualité de l'intégration des ensembles de données dans leurs représentations d'intégration de faible dimension. Nous proposons une nouvelle métrique, la variance à l'échelle (SV), pour évaluer l'intégration par lots d'ensembles de données comprenant des populations de cellules similaires sur plusieurs lots (Fig. 4B ; détaillé dans Méthodes). Pour chaque dimension de chaque intégration, nous calculons la variance du sous-ensemble d'observations de chaque lot et échelle par la variance globale dans cette dimension en tant que mesure de sous- ou sur-dispersion des intégrations du sous-ensemble dans cette dimension. Par exemple, dans l'ensemble de données d'analyse comparative SCMixology, des échantillons biologiquement identiques ont été analysés à l'aide de trois méthodes de préparation de bibliothèques (Dropseq ; Celseq2 ; 10X), chaque lot devant avoir la même distribution de cellules. Des valeurs SV plus proches de un indiquent une meilleure intégration (plus de similitude dans la dispersion) dans une dimension donnée par lot. Conformément à la Fig. 4A, les tracés SV (Fig. 4B) ont montré que SCTransform avait la meilleure intégration, avec tous les points SV très proches de un. De même, corralm et Harmony avec corralm ont également montré une bonne intégration par lots, et tous deux surpassent Harmony avec PCA, qui avait des valeurs SV loin de un.

Dans la tâche d'intégration scRNAseq du pancréas plus complexe et réaliste, les performances des méthodes d'intégration de données ont été évaluées qualitativement en comparant les UMAP (Fig. 4C et S5) et quantitativement avec les métriques de cluster ASW64 (Fig. 4D), comme dans une étude comparative précédente62. En supposant que les étiquettes de type de cellule données de chaque ensemble de données sont la vérité terrain, dans une intégration où les types de cellules forment des clusters compacts et parfaitement séparés, le type de cellule ASW doit être proche de 1. L'intégration par lots a été mesurée par 1 - ASWbatch, où les valeurs proches de 1 (ASWbatch près de 0) indiquent une intégration et moins de regroupement par lot. Corralm est une simple réduction de dimension conjointe qui n'inclut ni optimisation pour les étapes d'intégration par lots ni explicites par lots, et ne devrait donc pas surpasser les méthodes optimisées pour la correction par lots. Cependant, nous constatons que corralm surpasse l'ACP multilot (Fig. 4D). De plus, corralm se combine bien avec les pipelines d'intégration : l'association de la correction Harmony ou MNN avec les intégrations de corralm améliore l'intégration par rapport à la fois à corralm seul et aux pipelines d'origine avec PCA. Sur la figure 4D, nous rapportons que le corralm (avec les résidus de Freeman – Tukey) couplé à Harmony présente des performances comparables à la routine Seurat en termes d'intégration et de séparation des clusters biologiques. Qualitativement, ces UMAP sont similaires (Fig. 4C). En revanche, d'autres méthodes présentées sur la figure 4C ont moins bien réussi à intégrer les lots, bien qu'elles aient semblé préserver au moins une partie de la structure biologique.

La mise en œuvre corral de CA tire parti de la SVD rapide, approximative et partielle du package irlba R65 ; même lorsqu'un cœur est alloué sur un ordinateur portable ("Methods" - Benchmarking), corral s'exécute en moins d'une minute pour un ensemble de données de 1 500 fonctionnalités et plus de 20 000 cellules (50 composants). La figure 5A montre que pour la tâche analogue, glmPCA prend plus d'une heure, et que sur une gamme de tailles d'ensembles de données (1500 caractéristiques), le temps d'exécution de glmPCA augmente rapidement avec le nombre de cellules, tandis que CA (corral) évolue beaucoup plus favorablement. Au fur et à mesure que les implémentations SVD s'améliorent, le temps d'exécution et/ou l'utilisation de la mémoire peuvent être encore réduits en les incorporant de manière modulaire dans le pipeline corral. L'AC standard et les variantes que nous avons considérées ne sont pas des implémentations éparses ; les performances de calcul peuvent être encore améliorées avec des adaptations pour la parcimonie. Étant donné que CA a des exigences de calcul similaires à PCA, le remplacement de PCA par CA est une simple substitution de pipeline.

Performances informatiques de CA et ses adaptations. (A) Parcelle comparant le temps d'exécution pour CA standard et glmPCA sur dix ensembles de données, en sélectionnant jusqu'à 1500 fonctionnalités dans chacun. L'AC standard s'exécute systématiquement en moins d'une minute, même pour les ensembles de données de plus de 20 000 cellules, tandis que la glmPCA évolue moins favorablement et nécessite plus d'une heure pour la matrice d'entrée équivalente (1 500 éléments x ~ 22 000 cellules). (B) Parcelle comparant le temps d'exécution avec un nombre croissant de fonctionnalités dans l'ensemble de données de queue Aztekin Xenopus, à travers les méthodes d'adaptation CA. Puisqu'ils utilisent des routines similaires, leurs durées d'exécution sont assez similaires. (C) Parcelle comparant le temps d'exécution avec un nombre croissant de fonctionnalités dans l'ensemble de données Zhengmix8, à travers les méthodes d'adaptation CA. Dans (B) et (C), il est à noter que même avec un ordre de grandeur de fonctionnalités supplémentaires, CA et ses adaptations s'exécutent en une fraction du temps que prend glmPCA.

L'analyse des correspondances (AC) est une technique statistique dotée d'un riche fondement théorique qui a été proposée pour la première fois et caractérisée mathématiquement il y a près d'un siècle66 et qui n'a cessé d'être développée et étendue. Le CA a été périodiquement "redécouvert" et adapté dans diverses disciplines20,28,67,68,69 et plus récemment dans le domaine de l'analyse scRNAseq : plusieurs groupes ont suggéré une normalisation basée sur les résidus de Pearson avant la décomposition de la matrice avec PCA2,13, 14, une routine qui est conceptuellement similaire à l'AC standard - à part les différences dans la façon dont les résidus sont calculés, une distinction supplémentaire dans cette routine est l'étape supplémentaire de normalisation du score Z de PCA après le calcul des résidus de Pearson, par opposition à la décomposition directe de la matrice résiduelle avec SVD .

L'analyse des correspondances avec les résidus chi carré de Freeman-Tukey (CA-FT) est une adaptation simple et efficace de CA pour la réduction dimensionnelle du nombre de scRNAseq. Nous avons comparé les performances de CA et de cinq variantes de CA qui traitent la surdispersion de scRNAseq, en les comparant à glmPCA2, une méthode populaire dans le domaine. CA-FT était globalement le plus performant dans une tâche de récupération de cluster scRNAseq. Nos analyses ont également montré que, combinées à l'AC standard (résidus de Pearson), l'incorporation de transformations stabilisatrices de la variance et le lissage de "déflation de puissance" améliorent les performances dans les tâches de clustering en aval, par rapport à l'AC standard seule. Par conséquent, pour la réduction de dimension des données scRNAseq, nous recommandons d'utiliser CA-FT ou, lors de l'utilisation de CA standard, d'incorporer la stabilisation de la variance et/ou le lissage.

La normalisation des données et la réduction de dimension ont un impact significatif sur les analyses scRNAseq en aval. Les performances des approches de réduction de dimension dépendent de la structure de la variance, du bruit et d'autres caractéristiques d'un ensemble de données ; nous constatons, comme cela a été signalé ailleurs18, que les performances des méthodes varient en fonction des caractéristiques des ensembles de données individuels. Les études comparatives sont limitées par le manque d'ensembles de données de référence robustes reflétant la profondeur de la complexité et des nuances de la recherche biologique réelle ; la plupart des ensembles de données d'analyse comparative de haute qualité et «vérités sur le terrain» sont dérivés de simples mélanges de «pseudo»-cellules ou de pools de types de cellules distincts. Ni reflètent la véritable diversité des types de cellules dans les tissus, ni les propriétés des données de recherche du monde réel. En règle générale, des paramètres tels que le nombre de "vrais" clusters sont inconnus a priori et dépendent de la question de recherche et du contexte spécifiques. Une approche complémentaire consiste à considérer les ensembles de données de référence obtenus en séquençant des échantillons de tissus complexes, bien que ces ensembles de données aient également leurs propres inconvénients ; les cellules de ces études se voient attribuer des identités sur la base d'une méthode analytique (et pour un ensemble particulier d'objectifs d'étude) sans moyen de valider indépendamment les attributions. Par conséquent, ces annotations à contexte unique établissent une norme trop étroite pour les futures études d'analyse comparative d'autres méthodes, qui ne peuvent jamais surpasser la méthode utilisée pour l'affectation initiale. Grâce aux progrès des cadres d'analyse comparative systématique pour des ensembles de données complexes dans différents contextes, nous serons mieux équipés pour tester les mérites de chaque approche et identifier les approches optimales en fonction des caractéristiques des données.

En tant que telles, les analyses que nous présentons ici sont quelque peu limitées par les annotations spécifiques au contexte de nos ensembles de données de référence, puisque nous utilisons comme étiquettes de vérité terrain les annotations originales publiées avec ces ensembles de données. À l'exception de SCMixology et de Zhengmix (tous deux comprenant des grappes de cellules bien définies et par conception plus simples que les données provenant de tissus complexes), les ensembles de données que nous avons analysés n'avaient pas d'annotations de type cellulaire validées indépendamment, de sorte que les performances sont limitées par les affectations de type cellulaire d'origine. Même si une méthode donnée distingue mieux les sous-populations importantes ou les types de cellules rares du regroupement, ces avantages peuvent ne pas se refléter dans l'ARI, et la méthode recevrait en fait une petite pénalité pour les différences par rapport à la "référence". Compte tenu de la complexité et de la subjectivité inhérentes à l'annotation des grappes de cellules, les chercheurs peuvent appeler différentes populations ou grappes de cellules à partir du même ensemble de données, selon les objectifs de la recherche. La diversité des questions de recherche et des défis liés aux données en biologie unicellulaire nécessite l'étendue des approches statistiques et informatiques. Le cadre conceptuel robuste de CA et ses avantages de performances empiriques par rapport à PCA plaident pour son application dans les analyses scRNAseq.

Nous avons implémenté CA, CA-FT et d'autres variantes qui s'ajustent à la surdispersion des données scRNAseq dans le package R/Bioconductor corral (y compris la documentation, les tutoriels, les vignettes), permettant son intégration dans les pipelines analytiques couramment utilisés3,37. Nous concluons avec des idées pour le développement futur - CA, en particulier lorsqu'il est situé dans le cadre plus large du diagramme de dualité, peut servir à la fois de plate-forme et de riche source de développement de méthodes supplémentaires. En visualisant simultanément les incorporations de cellules et de gènes, le biplot CA met l'accent sur la dualité ligne-colonne inhérente à ces données, facilitant l'analyse conjointe des gènes et des cellules. L'approche unifiée de l'analyse des intégrations de gènes et de cellules fournit un cadre naturel pour étendre et/ou s'intégrer à d'autres approches, y compris l'analyse d'enrichissement d'ensembles de gènes, la décomposition supervisée et la projection de données supplémentaires dans un espace latent partagé, par exemple, avec une approche similaire comme utilisé précédemment dans mogsa et omicade410,34,36. Les intégrations peuvent être utilisées comme opérateurs matriciels pour projeter des données supplémentaires dans l'espace latent partagé, permettant une intégration multimodale et multi-lots, ainsi que des méthodes d'approximation rapide. La projection matricielle par multiplication est rapide et évolutive, même pour de très grands ensembles de données, et dans les extensions futures, peut servir de base à des approches rapides et approximatives de réduction de dimension basées sur la décomposition d'un sous-ensemble représentatif des données, puis sur la projection dans l'espace de la matrice complète. . Alors que les progrès des méthodes de préparation de bibliothèques permettent le séquençage d'un nombre toujours plus grand de cellules individuelles, les considérations informatiques sont essentielles dans la sélection des méthodes analytiques et la conception des pipelines scRNAseq.

Semblable à de nombreuses autres méthodes de factorisation matricielle, l'analyse des correspondances comprend deux étapes principales : une routine de transformation de données (voir également la figure 1A) et une opération de décomposition matricielle (telle que SVD ou analyse propre). En appliquant l'AC "standard" aux données de comptage de scRNAseq, nous utilisons SVD pour décomposer les résidus de Pearson de la matrice de comptage d'expression gène par cellule, où le résidu quantifie la différence entre les données observées et attendues. Dans ce cas, la valeur attendue est le produit du poids de la ligne et de la colonne à partir de la matrice de comptage d'origine. Un résidu positif, indiquant que la valeur observée (nombre) pour cette caractéristique/gène et paire de cellules est plus élevée que prévu, suggère une association ou une co-dépendance ; de manière correspondante, un résidu négatif montre une valeur inférieure à celle attendue, suggérant l'indication d'une association négative entre l'expression d'un gène et une sous-population cellulaire. Lorsqu'ils sont mis au carré, les résidus sont des variables aléatoires distribuées du chi carré, et leur somme des carrés comprend une statistique de test d'adéquation du chi carré avec (n-1)(m-1) degrés de liberté47,70.

L'analyse des correspondances est une double mise à l'échelle le long des lignes et des colonnes de chaque matrice de comptage.

L'AC appliquée aux données de comptage scRNAseq passe par les deux étapes discrètes suivantes :

Transformation des comptages en résidus standardisés. Supposons que \(\mathbf{X}\) est une matrice \(m\fois n\) avec \(n\) cellules (indexées sur \(j\)) dans les colonnes et \(m\) caractéristiques (indexées sur \(i\)) dans les lignes, comprenant les observations \({x}_{ij}\). L'abondance \({p}_{ij}\), le poids de la \(i\) ème ligne \({p}_{i.}\) et le poids de la \(j\) ème colonne \({p}_{.j}\) pour une observation donnée \({x}_{ij}\) sont :

L'abondance attendue pour l'observation \({x}_{ij}\) est \({p}_{i.}\hspace{0.25em}{p}_{.j}\) et correspond à ce à quoi nous nous attendrions voir dans une cellule en supposant qu'il n'y a pas de relation entre une ligne et une colonne. Les résidus standardisés (Pearson) \({r}_{p;ij}\) sont la différence entre l'observé et l'attendu, et peuvent être calculés :

Cette transformation est équivalente au calcul appliqué dans l'analyse de tableau de contingence de données catégorielles mesurant la force d'association entre les éléments d'une ligne et d'une colonne. Il donne une matrice \({\mathbf{M}}_{\mathbf{S}}\) où la somme des distances des points à leur centroïde ("inertie totale") est la statistique du chi carré de la matrice26 ,28. À la suite de cette transformation, \({\mathbf{M}}_{\mathbf{S}}\) est centré et devrait apparaître plus gaussien, et est donc une entrée appropriée pour SVD.

Décomposition matricielle. \({\mathbf{M}}_{\mathbf{S}}\) est décomposé à l'aide de la décomposition en valeurs singulières (SVD) pour trouver la matrice singulière gauche \(\mathbf{U}\), matrice diagonale de valeurs singulières \( \mathbf{D}\), et matrice singulière à droite \(\mathbf{V}\) telle que :

et

La matrice \(\mathbf{U}\) résultante peut être utilisée directement comme intégration, chaque colonne représentant une dimension dans le nouvel espace latent, ou des scores de coordonnées peuvent être calculés. Les scores de coordonnées standard sont donnés en divisant les matrices \(\mathbf{U}\) et \(\mathbf{V}\) par les vecteurs des poids des lignes et des poids des colonnes, respectivement. Les scores des coordonnées principales sont donnés en multipliant les scores des coordonnées standard par le vecteur des valeurs diagonales de la matrice \(\mathbf{D}\). Les scores de coordonnées principales diffèrent des scores de coordonnées standard par un scalaire sur chaque dimension, et tous deux reflètent les scores d'ordination des caractéristiques et des cellules38. Contrairement à l'ACP, où les différences dans les plongements se rapprochent des distances euclidiennes, l'analyse des correspondances décompose la statistique globale du chi carré. La valeur de la statistique chi carré sous-jacente est élevée lorsqu'il existe une association entre une paire ligne-colonne du tableau.

Nous avons considéré cinq variantes de CA pour traiter la surdispersion dans les comptages de scRNAseq (également résumés graphiquement sur la figure 2A).

AC avec résidus chi carré de Freeman-Tukey Au lieu de calculer les résidus de Pearson décrits ci-dessus, les résidus sont calculés :

La matrice de ces valeurs résiduelles est ensuite décomposée avec SVD comme décrit à l'étape 2 ci-dessus.

CA avec transformée stabilisatrice de variance : Racine carrée La racine carrée de la matrice des comptes \(\mathbf{X}\) est calculée avant d'effectuer la transformation résiduelle.

CA avec transformée stabilisatrice de variance : Anscombe Chaque élément \({x}_{ij}\) de la matrice des comptes \(\mathbf{X}\) est transformé en \({x}_{ij}^{* }=2\sqrt{{x}_{ij}+\frac{3}{8}}\). La transformation résiduelle est calculée sur la matrice de comptages stabilisée par la variance \({\mathbf{X}}^{*}\).

AC avec transformée stabilisatrice de variance : Freeman–Tukey Chaque élément \({x}_{ij}\) de la matrice des comptes \(\mathbf{X}\) est transformé en \({x}_{ij}^ {*}=\sqrt{{x}_{ij}}+\sqrt{{x}_{ij}+1}\). La transformation résiduelle est calculée sur la matrice de comptages stabilisée par la variance \({\mathbf{X}}^{*}\).

CA avec déflation de puissance Après avoir effectué la transformation des résidus de Pearson, chaque valeur de la matrice des résidus est transformée en une puissance de \(\alpha \in \left(0,1\right)\), tout en préservant le signe. Chaque élément \({r}_{ij}\) de la matrice résiduelle est transformé en \({r}_{ij}^{*}={\text{sgn}}\left({\text{r} }_{\text{ij}}\right) {\left|{r}_{ij}\right|}^{\mathrm{\alpha }}\). Nous recommandons de sélectionner \(\alpha \in [0.9,0.99]\) pour un effet de lissage "doux", présentant les résultats pour \(\alpha =0.9\).

L'adaptation de l'analyse des correspondances pour l'intégration de plusieurs tables est similaire à la méthode pour les tables simples avec des opérations supplémentaires de concaténation de matrices. Lors de l'intégration des ensembles de données, nous utilisons des résidus indexés, en divisant les résidus standardisés par la racine carrée de la proportion attendue pour réduire l'influence de la colonne avec des masses plus importantes (profondeur de la bibliothèque), qui est une source connue d'effet de lot dans les études scRNAseq. Les résidus indexés ont une interprétation simple, par exemple une valeur de 0,5 indique que la valeur observée est supérieure de 50 % à la valeur attendue. Une valeur de -0,5 indique que la valeur observée est 50 % moins susceptible que prévu d'avoir une association gène-cellule que prévu.

Associez des tableaux et sélectionnez des fonctionnalités. Identifiez l'intersection des caractéristiques dans les matrices \(k\) à intégrer et créez des sous-ensembles de tables uniquement pour ces caractéristiques \({m}^{*}\). Alors que dans ces analyses, nous nous concentrons sur l'intégration par lots et donc sur les caractéristiques, les tableaux peuvent être appariés soit par caractéristiques, pour l'intégration entre les lots, soit par cellules, pour l'intégration multimodale entre les types d'omiques.

Transformation des comptages en résidus indexés. Étant donné chaque tableau avec des cellules \(n\) et des caractéristiques \({m}^{*}\), le poids de ligne \({p}_{i.}\), le poids de colonne \({p}_{. j}\), et l'abondance \({p}_{ij}\) pour chaque observation sont calculées comme décrit ci-dessus pour l'AC standard. Les résidus indexés \({r}_{ij}\) peuvent être calculés :

Chaque table est mise à l'échelle séparément, afin de préserver la structure interne de chaque jeu de données.

Concaténer des matrices. Les matrices transformées de résidus indexés sont ensuite concaténées le long des entités correspondantes pour former une nouvelle matrice \({\mathbf{M}}_{\mathbf{C}}\) qui a \({m}^{*}\) caractéristiques et le nombre total de cellules dans les matrices \(k\) (c'est-à-dire la somme de \(n\) sur \(k\)).

Décomposition matricielle. La décomposition en valeurs singulières (SVD) est appliquée à la matrice concaténée des résidus indexés \({\mathbf{M}}_{\mathbf{C}}\) pour trouver la matrice singulière gauche \(\mathbf{U}\), diagonale matrice de valeurs singulières \(\mathbf{D}\), et matrice singulière à droite \(\mathbf{V}\) telle que :

et

Les colonnes de la matrice \(\mathbf{U}\) servent alors de plongements générés par cette procédure, et les cellules correspondent à leurs indices dans la matrice concaténée \({\mathbf{M}}_{\mathbf{C }}\).

Selon l'analyse en aval, il peut être important de sélectionner un nombre approprié de PC. Semblable à PCA, le nombre de composants peut être sélectionné en utilisant la méthode du coude avec le diagramme d'éboulis, par exemple, tel qu'implémenté dans le package findPC R (comme dans la Fig. 4C pour corralm avec Harmony)71.

Lors de l'intégration des représentations d'intégration à travers les lots, les mesures d'évaluation de cluster sont efficaces pour évaluer la compacité du groupe et la récupération des populations de cellules via le regroupement. Cependant, ils n'évaluent pas directement la qualité de l'intégration des ensembles de données dans les lots. Pour nous concentrer spécifiquement sur l'intégration par lots, nous avons développé et appliqué une métrique de variance à l'échelle heuristique, qui capture la dispersion relative de chaque lot par rapport à l'ensemble de données. La variance mise à l'échelle de la dimension de composant \({d}^{*}\) pour le sous-ensemble d'observations dans le lot \({b}^{*}\), \(S{V}_{{b}^{* },d}\), est calculé avec :

où \(\mathbf{E}\) est la matrice des plongements, et \(b\) indexe les lignes (observations par lot) tandis que \(d\) indexe les colonnes pour indiquer quelle dimension composante évaluer. Lorsque les ensembles de données sont bien intégrés, les valeurs SV pour chaque lot sont proches de 1, ce qui indique que chaque lot a une dispersion similaire par rapport à l'intégration complète. Cette métrique est appropriée lorsque les types de cellules représentés dans différents ensembles de données sont censés être similaires, mais ne peuvent pas tenir compte des situations dans lesquelles la distribution attendue des types de cellules (et par conséquent, les intégrations) est fondamentalement différente entre les lots.

Nous avons examiné les dix ensembles de données d'analyse comparative scRNA-seq présentés dans le tableau 1. Les incorporations de dimension réduite de chaque méthode ont été regroupées à l'aide du regroupement de graphes du voisin le plus proche walktrap, tel qu'implémenté dans l'ensemble de paramètres NNGraph par défaut du package fanfaronnades72,73. Les performances de la tâche de regroupement ont été évaluées avec l'indice Rand ajusté (ARI)74, en utilisant comme "vérité terrain" les étiquettes de type de cellule des ensembles de données d'origine. Walktrap a été sélectionné comme méthode principale de regroupement en fonction des performances ; nous avons observé, comme d'autres, que l'algorithme de walktrap préserve mieux la structure hiérarchique que le clustering de Louvain et atteint globalement un ARI75 plus élevé. Les résultats comparant le clustering de Louvain et le clustering walktrap sont inclus dans la Fig. S4. Nous notons que bien qu'une certaine variabilité dans les grappes et l'ARI ait été observée entre les exécutions, CA-FT s'est toujours classé comme la méthode la plus performante sur l'ensemble des ensembles de données. Les résultats présentés sur la figure 2C proviennent d'un regroupement utilisant différents nombres de PC. Les résultats illustrés à la Fig. 2B sont calculés en prenant le maximum sur tous les PC testés de la Fig. 2C, et pour glmPCA, la valeur indiquée est la moyenne des maxima atteints par chaque graine (dix graines testées au total). Les ensembles de données (détaillés ci-dessous) ont été acquis à partir de trois packages de données R/Bioconductor : CellBench, DuoClustering2018 et scRNAseq. Des liens vers chacun d'entre eux sont inclus ci-dessous dans la section Disponibilité des données.

Dans l'intégration SCMixology (Fig. 4A, B), chacune des méthodes de référence est exécutée avec les paramètres par défaut, comme suggéré dans leur documentation/vignettes respectives. mnnCorrect du package batchelor R/Bioconductor est exécuté sur les matrices logcounts, puis décomposé avec PCA60. Le résultat LIGER est présenté sous forme de visualisation UMAP car, comme il s'agit d'une méthode basée sur NMF, nous avons constaté que la visualisation directe des intégrations UMAP était difficile, car les dimensions de l'intégration ne sont pas classées en fonction des performances et sont également limitées à des valeurs positives59. . De même, LIGER n'est pas affiché dans le diagramme de variance à l'échelle pour la même raison, et nous ne recommandons pas d'utiliser l'approche du diagramme de variance à l'échelle avec d'autres méthodes qui ne génèrent pas de composants classés.

Dans l'intégration du pancréas (Fig. 4C, S5), toutes les parcelles UMAP ont été générées en utilisant n_neighbors = 40 ou n_neighbors = 50. Les méthodes ont été mises en œuvre de la même manière que dans les résultats d'intégration SCMixology. L'ACP (mise à l'échelle par tableau) a été mise en œuvre comme décrit dans notre mini-revue4. L'ACP multibatch a été réalisée avec l'implémentation batchelor (multibatchPCA), ainsi que la méthode "+MNN" (MNN réduit). Dans le résultat pour corralm + Harmony, la méthode du coude (implémentée dans findPC ; option perpendiculaire71) a été utilisée pour la sélection de PC avant d'exécuter Harmony61. La largeur de silhouette moyenne (ASW) a été implémentée avec le package cluster R, en utilisant la distance euclidienne64,76. Pour permettre une évaluation conjointe, les étiquettes ont été harmonisées, de sorte que les types de cellules correspondants se voient attribuer la même étiquette dans tous les ensembles de données. En particulier, les stellaires activés et les stellaires au repos ont été fusionnés en stellaires; gamma/pp et pp ont été fusionnés avec gamma ; conduit et canalaire ont été fusionnés.

Le code et la documentation sont disponibles dans le package corral R/Bioconductor : https://www.bioconductor.org/packages/corral. Le code R pour reproduire les figures et l'analyse de ce manuscrit est disponible sur Github à : https://github.com/laurenhsu1/corral_manuscript. Un tutoriel décrivant différentes implémentations de PCA et CA, y compris corral, est disponible sur : https://aedin.github.io/PCAworkshop. Les ensembles de données utilisés dans ces analyses sont détaillés dans le tableau 1, dans la section Analyse comparative des méthodes, y compris les citations et où les données sont accessibles directement via les packages de données R. Pour faciliter l'accès, les liens pour chaque ensemble de données Bioconductor utilisé dans cet article sont inclus ci-dessous : CellBench : https://bioconductor.org/packages/release/bioc/html/CellBench.htmlDuoClustering2018 : https://bioconductor.org/packages /release/data/experiment/html/DuoClustering2018.htmlscRNAseq : https://www.bioconductor.org/packages/release/data/experiment/html/scRNAseq.html.

Hicks, SC, Townes, FW, Teng, M. & Irizarry, RA Données manquantes et variabilité technique dans les expériences de séquençage d'ARN unicellulaire. Biostatistiques 19, 562–578 (2018).

Article Google Scholar

Townes, FW, Hicks, SC, Aryee, MJ & Irizarry, RA Sélection de caractéristiques et réduction de dimension pour l'ARN-Seq unicellulaire basé sur un modèle multinomial. Génome Biol. 20, 295 (2019).

Article CAS Google Scholar

Amezquita, RA et al. Orchestrer l'analyse unicellulaire avec un bioconducteur. Nat. Méthodes 17, 137–145 (2020).

Article CAS Google Scholar

Hsu, LL & Culhane, AC Impact du prétraitement des données sur la factorisation matricielle intégrative des données à cellule unique. Devant. Oncol. 10 973 (2020).

Article Google Scholar

Kiselev, VY, Andrews, TS et Hemberg, M. Défis dans le regroupement non supervisé de données d'ARN-seq unicellulaires. Nat. Révérend Genet. 20, 273-282 (2019).

Article CAS Google Scholar

Nguyen, LH & Holmes, S. Dix conseils rapides pour une réduction efficace de la dimensionnalité. Calcul PLOS. Biol. 15, e1006907 (2019).

Article ADS CAS Google Scholar

Stein-O'Brien, GL et al. Entrez dans la matrice : la factorisation révèle les connaissances des omiques. Tendances Genet. 34, 790–805 (2018).

Holmes, S. Analyse de données multivariées : la méthode française. Dans Institute of Mathematical Statistics Collections 219–233 (Institute of Mathematical Statistics, 2008). doi : https://doi.org/10.1214/193940307000000455.

Hotelling, H. Relations entre deux ensembles de variables. Biometrika 28, 321 (1936).

Article MATH Google Scholar

Meng, C. et al. Techniques de réduction de dimension pour l'analyse intégrative de données multi-omiques. Bref. Bioinformer. 17, 628–641 (2016).

Article CAS Google Scholar

Pearson, K. Sur les lignes et les plans les plus proches des systèmes de points dans l'espace. Londres. Edinb. Philosophie de Dublin. Mag. J. Sci. 2, 559–572 (1901).

Article MATH Google Scholar

Diaconis, P., Goel, S. & Holmes, S. Horseshoes dans la mise à l'échelle multidimensionnelle et les méthodes du noyau local. Ann. Appl. Statistique. 2, 777–807 (2008).

Article MATH Google Scholar

Hafemeister, C. & Satija, R. Normalisation et stabilisation de la variance des données d'ARN-seq unicellulaires à l'aide de la régression binomiale négative régularisée. Génome Biol. 20, 296 (2019).

Article CAS Google Scholar

Lause, J., Berens, P. & Kobak, D. Résidus analytiques de Pearson pour la normalisation des données UMI ARN-seq unicellulaires. Génome Biol. Rev.22, 258 (2021).

Article CAS Google Scholar

Durif, G., Modolo, L., Mold, JE, Lambert-Lacroix, S. & Picard, F. Factorisation probabiliste de la matrice de comptage pour l'analyse des données d'expression d'une seule cellule. Bioinformatique 35, 4011–4019 (2019).

Article CAS Google Scholar

Pierson, E. & Yau, C. ZIFA : Réduction de la dimensionnalité pour l'analyse de l'expression génique unicellulaire à gonflage zéro. Génome Biol. 16, 241 (2015).

Article Google Scholar

Risso, D., Perraudeau, F., Gribkova, S., Dudoit, S. & Vert, J.-P. Une méthode générale et flexible pour l'extraction de signal à partir de données d'ARN-seq unicellulaires. Nat. Commun. 9, 284 (2018).

Annonces d'article Google Scholar

Sun, S. Précision, robustesse et évolutivité des méthodes de réduction de dimensionnalité pour l'analyse d'ARN-seq unicellulaire. Génome Biol.20, 269 (2019).

Article Google Scholar

Benzécri, J.-P. Problèmes statistiques et méthodes géométriques. Cah. Anal. Données 3, 131–146 (1978).

Google Scholar

Benzécri, J.-P. & others. L’analyse des données. vol. 2 (Dunod Paris, 1973).

De la Cruz, O. & Holmes, S. Le diagramme de dualité dans l'analyse des données : exemples d'applications modernes. Ann. Appl. Statistique. 5, 2266-2277 (2011).

Article MATH Google Scholar

Escoufier, Y. Le diagramme de dualité : un moyen de meilleures applications pratiques. Dans Developments in Numerical Ecology (eds. Legendre, P. & Legendre, L.) (Springer, 1987).

Escoufier, Y. Opérateur lié à une matrice de données : une enquête. Dans Compstat 2006 - Actes de statistiques computationnelles (eds. Rizzi, A. & Vichi, M.) 285–297 (Physica HD, 2006). doi : https://doi.org/10.1007/978-3-7908-1709-6_22.

Legendre, P. & Legendre, L. Écologie numérique. (Elsevier, 2012).

Holmes, S. & Huber, W. Statistiques modernes pour la biologie moderne. (Cambridge University Press, 2019).

Google Scholar

Greenacre, MJ Analyse des correspondances : Analyse des correspondances. Wiley Interdiscip. Rév. Comput. Statistique. 2, 613–619 (2010).

Article Google Scholar

Digby, PGN & Kempton, RA Analyse multivariée des communautés écologiques (Springer, 1987).

Réserver Google Scholar

Greenacre, MJ Théorie et applications de l'analyse des correspondances. (Presse académique, 1984).

Grantham, R., Gautier, C., Gouy, M., Mercier, R. & Pavé, A. Utilisation du catalogue de codons et hypothèse du génome. Nucleic Acids Res. 8, 197-197 (1980).

Article Google Scholar

Perriere, G. Utilisation et mauvaise utilisation de l'analyse des correspondances dans les études d'utilisation des codons. Nucleic Acids Res. 30, 4548–4555 (2002).

Article CAS Google Scholar

Fellenberg, K. et al. Analyse des correspondances appliquée aux données des microarrays. Proc. Natl. Acad. Sci. Rév. 98, 10781–10786 (2001).

Article ADS CAS Google Scholar

Busold, CH et al. Intégration des annotations GO dans l'analyse des correspondances : Faciliter l'interprétation des données de puces à ADN. Bioinformatique 21, 2424–2429 (2005).

Article CAS Google Scholar

McMurdie, PJ & Holmes, S. phyloseq : un package R pour une analyse interactive reproductible et des graphiques des données de recensement du microbiome. PLoS ONE 8, 11 (2013).

Article Google Scholar

Culhane, AC, Perriere, G., Considine, EC, Cotter, TG & Higgins, DG Analyse inter-groupes des données des microréseaux. Bioinformatique 18, 1600–1608 (2002).

Article CAS Google Scholar

Culhane, AC, Perrière, G. & Higgins, DG Comparaison multiplateforme et visualisation des données d'expression génique à l'aide d'une analyse de co-inertie. BMC Bioinformatics 15 (2003).

Meng, C. et al. MOGSA : Analyse intégrative d'un ensemble de gènes à échantillon unique de plusieurs données omiques. Mol. Cellule. Protéomique 18, S153–S168 (2019).

Article CAS Google Scholar

Culhane, AC & Hsu, LL Réduction de dimension pour les débutants : guide de l'auto-stoppeur sur la factorisation matricielle et l'ACP. (2019) https://github.com/aedin/PCAworkshop.

Greenacre, M. Les contributions des objets rares dans l'analyse des correspondances. Écologie. 94(1), 241–249 (2013).

Article Google Scholar

Tian, ​​L. et al. Analyse comparative des pipelines d'analyse de séquençage d'ARN unicellulaire à l'aide d'expériences de contrôle de mélange. Nat. Méthodes 16, 479–487 (2019).

Article CAS Google Scholar

Zheng, GXY et al. Profilage transcriptionnel numérique massivement parallèle de cellules individuelles. Nat. Commun. 8, 14049 (2017).

Article ADS CAS Google Scholar

Duò, A., Robinson, MD & Soneson, C. Une évaluation systématique des performances des méthodes de regroupement pour les données d'ARN-seq unicellulaires. F1000Research 7, 1141 (2020).

Mosteller, F. & Tukey, JW Les utilisations et l'utilité du papier de probabilité binomiale. Confiture. Statistique. Assoc. 44, 174–212 (1949).

Article CAS MATH Google Scholar

Bartlett, MS L'utilisation des transformations. Biométrie 3, 39 (1947).

Article CAS Google Scholar

Anscombe, FJ La transformation des données de poisson, binomiales et binomiales négatives. Biometrika 35, 246–254 (1948).

Article MATH Google Scholar

Freeman, MF & Tukey, JW Transformations liées à l'angulaire et à la racine carrée. Ann. Mathématiques. Statistique. 21, 607–611 (1950).

Article MATH Google Scholar

Tukey, JW Analyse exploratoire des données. (Addison-Wesley, 1977).

Beh, EJ, Lombardo, R. & Alberti, G. Analyse des correspondances et statistique Freeman-Tukey: une étude des données archéologiques. Calcul. Statistique. Analyse des données. 128, 73–86 (2018).

Article MATH Google Scholar

Plackett, RL, Bishop, YMM, Fienberg, SE & Holland, PW Analyse multivariée discrète : Théorie et pratique. Statistique JR. Soc. Ser. Gen. 139, 402 (1976).

Article Google Scholar

Cressie, N. & Read, Tests d'ajustement multinomiaux TRC. Statistique JR. Soc. Ser. Méthodologie B. 46, 440-464 (1984).

Greenacre, M. Biplots de contribution. J. Comput. Graphique. Statistique. 22, 107-122 (2013).

Article Google Scholar

Krensky, AM & Clayberger, C. Biologie et pertinence clinique de la granulysine. Antigènes tissulaires 73, 193–198 (2009).

Article CAS Google Scholar

Gonzalez, LL, Garrie, K. & Turner, MD Rôle des protéines S100 dans la santé et la maladie. Biochim. Biophys. Acta BBA Mol. Cell Res. 1867, 118677 (2020).

Wang, S. et al. S100A8/A9 en Inflammation. Devant. Immunol. 9, 1298 (2018).

Article Google Scholar

Gordon, S., Plüddemann, A. & Martinez Estrada, F. Hétérogénéité des macrophages dans les tissus : diversité et fonctions phénotypiques. Immunol. Rév. 262, 36–55 (2014).

Tomasello, E. & Vivier, E. KARAP/DAP12/TYROBP : Trois noms et une multiplicité de fonctions biologiques. EUR. J. Immunol. 35, 1670-1677 (2005).

Article CAS Google Scholar

Su, H., Na, N., Zhang, X. & Zhao, Y. La fonction biologique et l'importance de CD74 dans les maladies immunitaires. Inflamm. Rés. 66, 209-216 (2017).

Article CAS Google Scholar

Matern, BM, Olieslagers, TI, Voorter, CEM, Groeneweg, M. & Tilanus, MGJ Aperçu du polymorphisme dans HLA-DRA et de sa relation évolutive avec les haplotypes HLA. HLA 95, 117-127 (2020).

Article CAS Google Scholar

Doledec, S. & Chessel, D. Analyse de co-inertie : Une méthode alternative pour étudier les relations espèce-environnement. Freshw. Biol. 31, 277–294 (1994).

Article Google Scholar

Welch, JD et al. L'intégration multi-omique unicellulaire compare et oppose les caractéristiques de l'identité des cellules cérébrales. Cellule 177, 1873-1887.e17 (2019).

Article CAS Google Scholar

Haghverdi, L., Lun, ATL, Morgan, MD & Marioni, JC Les effets de lot dans les données de séquençage d'ARN unicellulaire sont corrigés en faisant correspondre les voisins les plus proches mutuels. Nat. Biotechnol. 36, 421–427 (2018).

Article CAS Google Scholar

Korsunsky, I. Intégration rapide, sensible et précise des données unicellulaires avec Harmony. Nat. Méthodes 16, 16 (2019).

Article Google Scholar

Tran, HTN et al. Une référence des méthodes de correction d'effet de lot pour les données de séquençage d'ARN unicellulaire. Génome Biol. 21, 12 (2020).

Article CAS Google Scholar

Luecken, MD et al. Analyse comparative de l'intégration des données au niveau de l'atlas dans la génomique unicellulaire. Nat. Méthodes 19, 41–50 (2022).

Article CAS Google Scholar

Rousseeuw, PJ Silhouettes : Une aide graphique à l'interprétation et à la validation de l'analyse par grappes. J. Comput. Appl. Mathématiques. 20, 53–65 (1987).

Article MATH Google Scholar

Baglama, J. & Reichel, L. Augmented ont implicitement redémarré les méthodes de bidiagonalisation de Lanczos. SIAM J. Sci. Calcul. 27, 19–42 (2005).

Article MATH Google Scholar

Hirschfeld, HO Un lien entre corrélation et contingence. Mathématiques. Proc. Camb. Philos. Soc. 31, 520–524 (1935).

Article ANNONCES MATH Google Scholar

Abdi, H. & Valentin, D. Analyse des correspondances multiples. Encycl. Mes. Statistique. (2007).

Beh, EJ & Lombardo, R. Une généalogie de l'analyse des correspondances : Une généalogie de l'analyse des correspondances. Aust. NZJ Stat. 54, 137-168 (2012).

Article MATH Google Scholar

Hill, MO Analyse des correspondances : une méthode multivariée négligée. Appl. Statistique. 23, 340 (1974).

Article Google Scholar

Pearson, K. Sur le critère selon lequel un système donné d'écarts par rapport au probable dans le cas d'un système corrélé de variables est tel qu'on peut raisonnablement supposer qu'il provient d'un échantillonnage aléatoire. Londres. Edinb. Philosophie de Dublin. Mag. J. Sci. 50, 157–175 (1900).

Zhuang, H., Wang, H. & Ji, Z. findPC : Un package R pour sélectionner automatiquement le nombre de composants principaux dans l'analyse d'une seule cellule. Bioinformatique 38, 2949–2951 (2022).

Article CAS Google Scholar

Lun A. fanfaronnade : Algorithmes de regroupement pour les bioconducteurs. Package R version 1.8.0. (2022). https://bioconductor.org/packages/bluster.

Pons, P. & Latapy, M. Communautés informatiques dans de grands réseaux utilisant des marches aléatoires. en informatique et sciences de l'information - ISCIS 2005 (eds. Yolum, pInar, Güngör, T., Gürgen, F. & Özturan, C.) vol. 3733 284–293 (Springer Berlin Heidelberg, 2005).

Hubert, L. & Arabie, P. Comparing partitions. J. Classif. 2, 193–218 (1985).

Article MATH Google Scholar

Barkas, N. et al. Analyse conjointe de collections hétérogènes d'ensembles de données d'ARN-seq unicellulaires. Nat. Méthodes 16, 695–698 (2019).

Article CAS Google Scholar

Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M. & Hornik, K. cluster : Bases et extensions de l'analyse de cluster. Package R version 2.1.4 (2022). https://cran.r-project.org/web/packages/cluster

Baron, M. et al. Une carte transcriptomique unicellulaire du pancréas humain et de souris révèle la structure de la population inter et intracellulaire. Cellule Syst. 3, 346-360.e4 (2016).

Article CAS Google Scholar

Muraro, MJ et al. Atlas du transcriptome unicellulaire du pancréas humain. Cellule Syst. 3, 385-394.e3 (2016).

Article CAS Google Scholar

Lawlor, N. et al. Les transcriptomes unicellulaires identifient les signatures des cellules des îlots humains et révèlent des changements d'expression spécifiques au type de cellule dans le diabète de type 2. Génome Res. 27, 208-222 (2017).

Article CAS Google Scholar

Chen, R., Wu, X., Jiang, L. et Zhang, Y. L'ARN-seq unicellulaire révèle la diversité des cellules hypothalamiques. Cell Rep. 18, 3227–3241 (2017).

Article CAS Google Scholar

Darmanis, S. et al. Une enquête sur la diversité du transcriptome du cerveau humain au niveau de la cellule unique. Proc. Natl. Acad. Sci. 112, 7285–7290 (2015).

Article ADS CAS Google Scholar

Aztekin, C. et al. Identification d'une cellule organisatrice de la régénération dans la queue de Xenopus. Sciences 364, 653–658 (2019).

Article ADS CAS Google Scholar

Télécharger les références

Nous sommes reconnaissants pour les discussions utiles avec le professeur John Quackenbush et son laboratoire à la Harvard TH Chan School of Public Health, le laboratoire du professeur Aedín Culhane à l'Université de Limerick et avec des collègues de Bioconductor financés par le programme de réseau de semences Chan Zuckerberg Initiative. Nous sommes également reconnaissants du soutien du professeur Judith Agudo et de son laboratoire au Dana-Farber Cancer Institute.

Ce projet a été rendu possible en partie grâce à la subvention numéro CZF2019-002443 (Lead PI : Martin Morgan) de la Chan Zuckerberg Initiative DAF, un fonds conseillé de la Silicon Valley Community Foundation, dont ACC est bénéficiaire. LH est financé en partie par le programme de subventions de formation en biostatistique du NIH NIGMS en génétique statistique/génomique et biologie computationnelle (subvention de formation prédoctorale T32GM135117).

Département de biostatistique, Harvard TH Chan School of Public Health, Boston, MA, États-Unis

Lauren L. Hsu

Département d'immunologie et de virologie du cancer, Dana-Farber Cancer Institute, Boston, MA, États-Unis

Lauren L. Hsu

Limerick Digital Cancer Research Centre, Health Research Institute, School of Medicine, University of Limerick, Limerick, Irlande

Edin C.Culhane

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

LH et ACC ont rédigé le manuscrit et conceptualisé les méthodes présentées. ACC a écrit la vignette de l'atelier Bioconductor sur CALH, a développé le package R/Bioconductor corral, a écrit du code pour effectuer des analyses et a créé des figures.

Correspondance à Aedín C. Culhane.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Hsu, LL, Culhane, AC Analyse des correspondances pour la réduction de dimension, l'intégration par lots et la visualisation des données d'ARN-seq unicellulaires. Sci Rep 13, 1197 (2023). https://doi.org/10.1038/s41598-022-26434-1

Télécharger la citation

Reçu : 02 septembre 2022

Accepté : 14 décembre 2022

Publié: 21 janvier 2023

DOI : https://doi.org/10.1038/s41598-022-26434-1

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.