Syftet med detta projekt har varit att analysera problem och lösningar gällande reproducerbarhetrörande bioinformatiks analys av metabar kodningsdata från miljö-DNA (frånengelskans Environmental DNA, eDNA). I detta syntesprojekt har det också sammanställt sen lista med förslag på forskningsinriktningar som kan främja användningen av molekylära verktyg för övervakning, med särskild tonvikt på miljö-DNA och parallelliserad DNA-sekvensering (så kallad High-Throughput Sequencing, HTS) i nationella övervakningsprogram. Ett reproducerbart tillvägagångssätt för att analysera denna typ av data kommer att möjliggöra att datakällor av olika ursprung och kvalitet kan kombineras och analyseras tillsammans. Detta är särskilt relevant vid jämförelse av resultat från långa tidsserier, likt de som produceras inom nationella övervakningsprogram.
Miljöövervakning är en väsentlig del för att säkerställa ett hållbart utnyttjande av naturresurser. Nuvarande metoder för identifiering och övervakning av biologiskmångfald, särskilt analys av mikroorganismer som innebär tidskrävande och dyra mikroskopianalyser utförda av specialister, är ofta en flaskhals i analyskedjan frånprovtagning till dataanalys och utvärdering av miljöstatus. Dessutom kan de resultat som produceras av enskilda specialister vara svåra att återskapa, särskilt när resultatet bygger på observationer i fält, vilket gör analys av miljö-DNA till ett attraktivt komplement eller ersättning för dessa traditionella inventeringsmetoder.
Bioinformatisk analys av data från miljö-DNA är en digital process som i de flesta fall kan göras helt automatiserad. Förutsättningarna är därför goda för att skapa reproducerbara resultat, något som kommer att vara av största betydelse för storskalig användning av denna teknologi. För att undersöka i vilken utsträckning analyser av miljö-DNA är reproducerbara har vi därför genomfört en systematisk litteraturstudie av ett antalrelevanta publikationer. Vi har även identifierat ett antal problem samt teknologiskalösningar som kan förbättra reproducerbarheten av bioinformatiska analyser.
Vi har undersökt reproducerbarheten av 67 undersökningar genom att definierat fyra kriterier som vi anser vara minimikrav och måste uppfyllas för att en bioinformatiska analys av data från miljö-DNA ska kunna reproduceras. Dessa är (1) programvarunamn och versioner, samt (2) analysparametrar har rapporterats, (3) referensdatabasen som används för taxonomisk klassificering är unikt definierad (t.ex. med namn och versionsnummer eller datum då den laddats ner), och slutligen (4) den data som analyserats har publicerats efter projektets slut. Vår studie visar att endast en tredjedel avde undersökta artiklarna uppfyller alla fyra kriterier, och därmed att de flesta av dessa analyser inte går att reproducera.
Många av de problem som forskare ställs inför när bioinformatik och storskalig DNA-sekvensering används för analys av biologisk mångfald, liknar de problem som finns inom andra områden, så som mjukvaruutveckling och molntjänster. Många fritt tillgängliga mjukvaruverktyg med öppen källkod har därför utvecklats för att lösa dessa problem. Ett antal av de undersökta miljö-DNA-projekten har använt flera av dessa teknologier, vilka inkluderar versionshantering av text (som underlättar distribution av reproducerbara databaser), containerteknologi (möjliggör reproducerbara arbetsflöden) och hash funktioner (som kan säkra dataintegritet).
Utvecklingen inom analys av miljö-DNA har gjort stora framsteg under det senaste decenniet och är inom vissa områden (till exempel analys av biologisk mångfald i vatten) redo att inkluderas i storskaliga övervakningsprogram. Men för att data och resultat ska fortsätta vara relevanta även när nya metoder för DNA-sekvensering och bioinformatisk analys utvecklas, måste reproducerbarhet vara en integrerad del av planering och genomförande av ett sådant program.
Övervakning av biologisk mångfald med hjälp av miljö-DNA kräver fortfarandeutveckling och vår analys har identifierat fjorton kategorier av förslag på framtidaforskningsinriktningar. Dessa inkluderar förbättring av tillgängliga referenssekvensdatabaser och utveckling av nya genetiska markörer för taxonomisk klassificering (inklusive hela mitokondrie-genom), kvantitativ analys av miljö-DNA, nya bioinformatiska verktyg och användning av nya sekvenseringsteknologier och längre sekvenser för bättre taxonomisk upplösning.
Stockholm: Naturvårdsverket, 2022. , p. 42