inspect_submissions.py

import os, sys
import pandas as pd
from datetime import datetime
from utils.inspector import hash_submissions, suspicious_by_hash

CSV_DIR = os.path.join(os.getcwd(), 'csv')

def main():
    submissions_dir_name = ' '.join(sys.argv[1:]) if len(sys.argv) > 1 else exit(f'\nNo submissions dir name given. Provide the name as an argument.\n\nUsage: python {sys.argv[0]} [submissions dir name]\nExample: python {sys.argv[0]} AssignmentX\n')
    submissions_dir_path = os.path.join('BB_submissions', submissions_dir_name)
    if not os.path.isdir(submissions_dir_path):
        exit(f'Directory {submissions_dir_path} does not exist.\nMake sure "{submissions_dir_name}" exists in "BB_submissions".')
    else:
        hashes_csv_file_path = hash_submissions(submissions_dir_path)  # generate hashes for all files and return output csv file to load & find duplicate/suspicious hashes
        csv = pd.read_csv(hashes_csv_file_path)
        df = pd.DataFrame(csv)  # df with all files and their hashes
        df_suspicious = suspicious_by_hash(df)  # df with all files with duplicate/suspicious hash, excludes files from the same student id
        
        csv_name = f'{submissions_dir_name}_suspicious_{datetime.now().strftime("%Y%m%d-%H%M%S")}.csv'
        csv_out = os.path.join(CSV_DIR, csv_name)
        df_suspicious.to_csv(csv_out, index=False)
        print(f'[INFO] Created CSV file with duplicate/suspicious hashes in {submissions_dir_name}\nCSV file: {csv_out}')


if __name__ == '__main__':    
    main()
'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00			`import os, sys`
			`import pandas as pd`
			`from datetime import datetime`
			`from utils.inspector import hash_submissions, suspicious_by_hash`

cleanup code 2023-02-28 23:26:23 +00:00			`CSV_DIR = os.path.join(os.getcwd(), 'csv')`
'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00
			`def main():`
			`submissions_dir_name = ' '.join(sys.argv[1:]) if len(sys.argv) > 1 else exit(f'\nNo submissions dir name given. Provide the name as an argument.\n\nUsage: python {sys.argv[0]} [submissions dir name]\nExample: python {sys.argv[0]} AssignmentX\n')`
			`submissions_dir_path = os.path.join('BB_submissions', submissions_dir_name)`
			`if not os.path.isdir(submissions_dir_path):`
			`exit(f'Directory {submissions_dir_path} does not exist.\nMake sure "{submissions_dir_name}" exists in "BB_submissions".')`
			`else:`
cleanup code 2023-02-28 23:26:23 +00:00			`hashes_csv_file_path = hash_submissions(submissions_dir_path) # generate hashes for all files and return output csv file to load & find duplicate/suspicious hashes`
'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00			`csv = pd.read_csv(hashes_csv_file_path)`
			`df = pd.DataFrame(csv) # df with all files and their hashes`
cleanup code 2023-02-28 23:26:23 +00:00			`df_suspicious = suspicious_by_hash(df) # df with all files with duplicate/suspicious hash, excludes files from the same student id`

'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00			`csv_name = f'{submissions_dir_name}_suspicious_{datetime.now().strftime("%Y%m%d-%H%M%S")}.csv'`
cleanup code 2023-02-28 23:26:23 +00:00			`csv_out = os.path.join(CSV_DIR, csv_name)`
'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00			`df_suspicious.to_csv(csv_out, index=False)`
added printing out path of created CSV files 2023-03-01 10:51:03 +00:00			`print(f'[INFO] Created CSV file with duplicate/suspicious hashes in {submissions_dir_name}\nCSV file: {csv_out}')`
'inspect submission files by hash' feature v0.1 2023-02-28 22:48:34 +00:00

			`if __name__ == '__main__':`
cleanup code 2023-02-28 23:26:23 +00:00			`main()`