Grupy 2-osobowe (ewentualnie 1-osobowe). Zadanie: Korzystając ze zbiorów danych na podstawie projektu 'Lucene' w dwóch wersjach (linki na stronie przedmiotu), zreprodukować case study z zajęć (m.in. zbudować zaproponowane na zajęciach modele predykcji). Następnie poprawić rezultaty predykcji defektów oprogramowania w wersji 2.4 projektu Lucene (za pomocą modelu zbudowanego na danych z projektu w wersji 2.2) uzyskane na zajęciach modyfikując kroki przetwarzania danych, transformacji, selekcji cech, wyboru i tuningu modeli... Kryterium oceny modelu będzie miara MCC. Każda grupa oddaje skrypt, który powinien: 1) kompilować się 2) na wstępie ustawiać seed (set.seed(1)) oraz instalować i ładować wszystkie niezbędne pakiety 2) działać nie dłużej niż 5 min na i7 2.9MHz 16MB RAM 3) raportować MCC oraz Confusion Matrix 4) zawierać b. dokładnie skomentowane kroki prowadzące do uzyskania wyniku (komentarze na poziomie linii kodu, funkcji, zmiennych/struktur danych) 5) zawierać zaznaczone wyraźnie autorstwo (imię nazwisko, numer indeksu) poszczególnych funkcji (w tym także kroków przetwarzania danych, selekcji cech, tuningu modeli etc.) - proszę też w nagłówku skryptu podsumować (opisowo i procentowo) wkład poszczególnych członków zespołu 6) być zgłoszony mailem jeden raz, w terminie do 26XI g.20 (~10 dni), przez jedną osobę z zespołu (CC do pozostałych członków zespołu), w tytule maila "Danologia" oraz nazwiska członków zespołu np.DanologiaKowalskiNowak (do zgłoszenia można też opcjonalnie dołączyć plik .txt, lub w przypadku użycia kolorów/grafik .pdf i .tex/.doc, zawierający bardziej szczegółowy opis proponowanego rozwiązania, dochodzenia do niego, porównania konkurencyjnych rozwiązań). Zasady oceny: 1) Ocena zajęć bierze pod uwagę: - Czynnik F1 - ocena na podstawie uzyskanej wartości MCC (przy jednolitym set.seed(1)), min. wartość na ocenę 3.0 to MCC=0.53. - Czynnik F2 - modyfikacja oceny w zakresie [- 1.0, 1.0] na podstawie kodu (jak bardzo prosty/czytelny/czysty/samokomentujący się jest kod) oraz komentarzy (jak bardzo ułatwiają zrozumienie kodu i zaproponowanych rozwiązań). OCENA=F1+/-1.0(na bazie F2) 2) Osoby nieobecne na zajęciach projektowych uzyskują ocenę ndst. 3) Zaproponowane rozwiązania proszę zachować dla siebie - jeśli zostanie wykryte, że jakieś rozwiązanie jest klonem rozwiązania zaproponowanego przez inną grupę/osobę (lub stopień podobieństwa jest wysoki) to obie grupy uzyskują ocenę ndst. (jeśli nie jest całkowicie pewne kto od kogo kopiował), ewentualnie tylko grupa, która się przyzna, że skopiowała rozwiązanie uzyskuje ocenę ndst. [uczulam, że są dostępne narzędzia, by sprawdzić podobieństwo kodów źródłowych automatycznie]