chore(repo): Move yml files to extracted data dir

2024-07-16 16:26:11 +02:00 · 2024-07-16 16:26:11 +02:00 · c5df5c01a2
commit c5df5c01a2
parent 3ec7dcd1bb
66 changed files with 21 additions and 14 deletions
--- a/README.md
+++ b/README.md
@ -1,18 +1,21 @@
 # Scoping Review: Inequalities on the Labour Market

-
 This repository contains all data, modelling and processing source code and the complete textual content to reproduce the scoping review study.
 The most up-to-date version of this repository can always be found [here](https://git.martyoeh.me/professional/wow-inequalities).

-Raw, intermediate and processed data can all be found in the `data/` directory:
-Raw data include the unmodified database queries using the scoping review search terms.
-Intermediate data are made up of the bibtex file produced by Zotero, after tagging and sorting in a Zotero library, ready to be re-imported into the application.
-Processed data include the fully extracted studies which make up the main sample for the review.
+Raw references, extracted and processed data can all be found in the `data/` directory:
+Reference data include the unmodified database queries using the scoping review search terms,
+and the bibtex file produced by Zotero after tagging and sorting in a Zotero library, ready to be re-imported into the application.
+Extracted data include the fully extracted studies which make up the main sample for the review.
+Processed data are ready to import into a dataframe or visualize in a report.

-The full article text and code can be found in the `scoping_review.qmd` file.
-It makes use of supplementary processing code which resides in the `src/` directory,
+All full texts and visualization code reside in the `manuscripts/` directory.
+The full working paper text and code can be found in the `scoping_review.qmd` file.
+The full article text can be found in the `article.qmd` file.
+
+They both make use of supplementary extraction and processing code which resides in the `src/` directory,
 mainly to load processed data from the `data/` directory and turn it into `.csv` data,
-as well as pre-processing those for visualization and validity ranking within the study.
+as well as pre-processing for visualization and validity ranking within the study.

 ## Execution and Reproduction

--- a/data/processed/relevant/Adam2018.yml
+++ b/data/processed/relevant/Adam2018.yml
--- a/data/processed/relevant/Adams2015.yml
+++ b/data/processed/relevant/Adams2015.yml
--- a/data/processed/relevant/Ahumada2023.yml
+++ b/data/processed/relevant/Ahumada2023.yml
--- a/data/processed/relevant/Al-Mamun2014.yml
+++ b/data/processed/relevant/Al-Mamun2014.yml
--- a/data/processed/relevant/Alexiou2023.yml
+++ b/data/processed/relevant/Alexiou2023.yml
--- a/data/processed/relevant/Alinaghi2020.yml
+++ b/data/processed/relevant/Alinaghi2020.yml
--- a/data/processed/relevant/Bailey2012.yml
+++ b/data/processed/relevant/Bailey2012.yml
--- a/data/processed/relevant/Bartha2020.yml
+++ b/data/processed/relevant/Bartha2020.yml
--- a/data/processed/relevant/Blumenberg2014.yml
+++ b/data/processed/relevant/Blumenberg2014.yml
--- a/data/processed/relevant/Broadway2020.yml
+++ b/data/processed/relevant/Broadway2020.yml
--- a/data/processed/relevant/Cardinaleschi2019.yml
+++ b/data/processed/relevant/Cardinaleschi2019.yml
--- a/data/processed/relevant/Carstens2018.yml
+++ b/data/processed/relevant/Carstens2018.yml
--- a/data/processed/relevant/Chao2022.yml
+++ b/data/processed/relevant/Chao2022.yml
--- a/data/processed/relevant/Cieplinski2021.yml
+++ b/data/processed/relevant/Cieplinski2021.yml
--- a/data/processed/relevant/Clark2019.yml
+++ b/data/processed/relevant/Clark2019.yml
--- a/data/processed/relevant/Coutinho2006.yml
+++ b/data/processed/relevant/Coutinho2006.yml
--- a/data/processed/relevant/Davies2022.yml
+++ b/data/processed/relevant/Davies2022.yml
--- a/data/processed/relevant/Debowicz2014.yml
+++ b/data/processed/relevant/Debowicz2014.yml
--- a/data/processed/relevant/Delesalle2021.yml
+++ b/data/processed/relevant/Delesalle2021.yml
--- a/data/processed/relevant/Dieckhoff2015.yml
+++ b/data/processed/relevant/Dieckhoff2015.yml
--- a/data/processed/relevant/Dustmann2012.yml
+++ b/data/processed/relevant/Dustmann2012.yml
--- a/data/processed/relevant/Emigh2018.yml
+++ b/data/processed/relevant/Emigh2018.yml
--- a/data/processed/relevant/Ferguson2015.yml
+++ b/data/processed/relevant/Ferguson2015.yml
--- a/data/processed/relevant/Field2019.yml
+++ b/data/processed/relevant/Field2019.yml
--- a/data/processed/relevant/Gates2000.yml
+++ b/data/processed/relevant/Gates2000.yml
--- a/data/processed/relevant/Gilbert2001.yml
+++ b/data/processed/relevant/Gilbert2001.yml
--- a/data/processed/relevant/Go2010.yml
+++ b/data/processed/relevant/Go2010.yml
--- a/data/processed/relevant/Hardoy2015.yml
+++ b/data/processed/relevant/Hardoy2015.yml
--- a/data/processed/relevant/Hojman2019.yml
+++ b/data/processed/relevant/Hojman2019.yml
--- a/data/processed/relevant/Khan2021.yml
+++ b/data/processed/relevant/Khan2021.yml
--- a/data/processed/relevant/Kuriyama2021.yml
+++ b/data/processed/relevant/Kuriyama2021.yml
--- a/data/processed/relevant/Li2022.yml
+++ b/data/processed/relevant/Li2022.yml
--- a/data/processed/relevant/Liyanaarachchi2016.yml
+++ b/data/processed/relevant/Liyanaarachchi2016.yml
--- a/data/processed/relevant/Militaru2019.yml
+++ b/data/processed/relevant/Militaru2019.yml
--- a/data/processed/relevant/Mukhopadhaya2003.yml
+++ b/data/processed/relevant/Mukhopadhaya2003.yml
--- a/data/processed/relevant/Mun2018.yml
+++ b/data/processed/relevant/Mun2018.yml
--- a/data/processed/relevant/Pi2016.yml
+++ b/data/processed/relevant/Pi2016.yml
--- a/data/processed/relevant/Poppen2017.yml
+++ b/data/processed/relevant/Poppen2017.yml
--- a/data/processed/relevant/Rendall2013.yml
+++ b/data/processed/relevant/Rendall2013.yml
--- a/data/processed/relevant/Rosen2014.yml
+++ b/data/processed/relevant/Rosen2014.yml
--- a/data/processed/relevant/Shepherd-Banigan2021.yml
+++ b/data/processed/relevant/Shepherd-Banigan2021.yml
--- a/data/processed/relevant/Shin2006.yml
+++ b/data/processed/relevant/Shin2006.yml
--- a/data/processed/relevant/SilveiraNeto2011.yml
+++ b/data/processed/relevant/SilveiraNeto2011.yml
--- a/data/processed/relevant/Sotomayor2021.yml
+++ b/data/processed/relevant/Sotomayor2021.yml
--- a/data/processed/relevant/Standing2015.yml
+++ b/data/processed/relevant/Standing2015.yml
--- a/data/processed/relevant/Stock2021.yml
+++ b/data/processed/relevant/Stock2021.yml
--- a/data/processed/relevant/Suh2017.yml
+++ b/data/processed/relevant/Suh2017.yml
--- a/data/processed/relevant/Thoresen2021.yml
+++ b/data/processed/relevant/Thoresen2021.yml
--- a/data/processed/relevant/Wang2016.yml
+++ b/data/processed/relevant/Wang2016.yml
--- a/data/processed/relevant/Wang2020.yml
+++ b/data/processed/relevant/Wang2020.yml
--- a/data/processed/relevant/Whitworth2021.yml
+++ b/data/processed/relevant/Whitworth2021.yml
--- a/data/processed/relevant/Wong2019.yml
+++ b/data/processed/relevant/Wong2019.yml
--- a/data/processed/relevant/Xu2021.yml
+++ b/data/processed/relevant/Xu2021.yml
--- a/data/processed/irrelevant/AlbujaEcheverria2021.DISABLED
+++ b/data/processed/irrelevant/AlbujaEcheverria2021.DISABLED
--- a/data/processed/irrelevant/Clibborn2022.DISABLED
+++ b/data/processed/irrelevant/Clibborn2022.DISABLED
--- a/data/processed/irrelevant/Dumas2018.DISABLED
+++ b/data/processed/irrelevant/Dumas2018.DISABLED
--- a/data/processed/irrelevant/Eckardt2022.yml.DISABLED
+++ b/data/processed/irrelevant/Eckardt2022.yml.DISABLED
--- a/data/processed/irrelevant/Elveren2013.DISABLED
+++ b/data/processed/irrelevant/Elveren2013.DISABLED
--- a/data/processed/irrelevant/Mhando2020.DISABLED
+++ b/data/processed/irrelevant/Mhando2020.DISABLED
--- a/data/processed/irrelevant/Saleh2018.DISABLED
+++ b/data/processed/irrelevant/Saleh2018.DISABLED
--- a/data/processed/irrelevant/deGeus2022.DISABLED
+++ b/data/processed/irrelevant/deGeus2022.DISABLED
--- a/manuscript/meeting_eoy.qmd
+++ b/manuscript/meeting_eoy.qmd
@ -52,7 +52,7 @@ zot_df = pd.DataFrame([
 WB_COUNTRY_GROUPS_FILE = Path(f"{g.SUPPLEMENTARY_DATA}/wb-country-groupings.xlsx").resolve()
 df_country_groups = pd.read_excel(WB_COUNTRY_GROUPS_FILE).set_index("Economy")

-bib_df = (load_data.from_yml(f"{g.PROCESSED_DATA}/relevant")
+bib_df = (load_data.from_yml(f"{g.EXTRACTED_DATA}")
    .assign(
        doi=lambda _df: _df["uri"].str.extract(r"https?://(?:dx\.)?doi\.org/(.*)", expand=False),
        zot_cited=lambda _df: _df["doi"].map(zot_df["cited"]),
--- a/src/extract/load_data.py
+++ b/src/extract/load_data.py
@ -9,7 +9,11 @@ try:
 except ModuleNotFoundError:
    import yml as yaml  # for directly running the package

-DEFAULT_YAML_PATH = Path("data/processed")
+try:
+    import src.globals as g
+    DEFAULT_YAML_PATH = g.EXTRACTED_DATA
+except ModuleNotFoundError:
+    DEFAULT_YAML_PATH = Path("data")


 def to_tsv(studies: list[dict]) -> str:
--- a/src/globals.py
+++ b/src/globals.py
@ -5,7 +5,7 @@ PROJECT_DIR = Path(os.getenv("QUARTO_PROJECT_DIR", "."))

 DATA_DIR = PROJECT_DIR.joinpath("data")

-PROCESSED_DATA = DATA_DIR.joinpath("processed")
-SUPPLEMENTARY_DATA = DATA_DIR.joinpath("supplementary")
-
+EXTRACTED_DATA = DATA_DIR.joinpath("extracted")
 REFERENCE_DATA = DATA_DIR.joinpath("references")
+SUPPLEMENTARY_DATA = DATA_DIR.joinpath("supplementary")
+PROCESSED_DATA = DATA_DIR.joinpath("processed")
--- a/src/process/generate_dataframes.py
+++ b/src/process/generate_dataframes.py
@ -20,7 +20,7 @@ from src.extract import load_data as load

 # each observation in a single dataframe
 df = meta.observations_with_metadata_df(
-    raw_observations = load.from_yml(g.PROCESSED_DATA),
+    raw_observations = load.from_yml(g.EXTRACTED_DATA),
    study_metadata = meta.bib_metadata_df(bib_sample),
    country_groups = meta.country_groups_df(Path(f"{g.SUPPLEMENTARY_DATA}/wb-country-groupings.xlsx")),
 )