Zadanie: Korzystając ze zbiorów danych na podstawie projektu 'Lucene' w dwóch wersjach (linki na slajdach/stronie przedmiotu), zreprodukować case study z zajęć (m.in. zbudować zaproponowane na zajęciach modele predykcji). Następnie poprawić rezultaty predykcji defektów oprogramowania w wersji 2.4 projektu Lucene (za pomocą modelu zbudowanego na danych z projektu w wersji 2.2) uzyskane na zajęciach modyfikując kroki przetwarzania danych, transformacji, selekcji cech, wyboru i tuningu modeli... Miarą oceny jakości modelu będzie miara MCC. Każdy oddaje skrypt, który powinien: 1) kompilować się 2) na wstępie ustawiać seed (set.seed(1)) oraz instalować i ładować wszystkie niezbędne pakiety 2) działać nie dłużej niż 5 min na i7 2.9MHz 16GB RAM 3) raportować MCC oraz Confusion Matrix 4) zawierać b. dokładnie skomentowane kroki prowadzące do uzyskania wyniku (komentarze na poziomie linii kodu, funkcji, zmiennych/struktur danych) 5) zawierać zaznaczone wyraźnie autorstwo (imię nazwisko, numer indeksu) poszczególnych funkcji (w tym także kroków przetwarzania danych, selekcji cech, tuningu modeli etc.) lub wskazanie oryginalnego źródł/autora (jeśli korzysta się z jakiegoś rozwiązania). 6) być zgłoszony przez ePortal oraz jednocześnie na wszelki wypadek mailem jeden raz, do 27XI2020(tydzień) do g.20; tytuł maila: Danologia_Imie_Nazwisko_NrIndeksu np. Danologia_Jan_Kowalski_222333 (do zgłoszenia rekomenduje się dołączenie pliku .pdf oraz .tex/.doc, zawierającego bardziej szczegółowy opis proponowanego rozwiązania, tego co stanowi jego najbardziej wartościową część i na czym polega Państwa wkład, porównania konkurencyjnych rozwiązań, oraz ewentualnie drogę dojścia do finalnego rozwiązania). Zasady oceny: 1) Ocena zajęć bierze pod uwagę: - Czynnik F1 - na podstawie kodu (czy zawiera wszystko co trzeba, w szczególności, czy poprawne są kroki modelowania predykcyjnego, czy zapewniona jest reprodukowalność badań, jak bardzo prosty/czytelny/czysty/samokomentujący się jest kod) oraz na podstawie komentarzy (jak bardzo ułatwiają zrozumienie kodu i zaproponowanych rozwiązań). - Czynnik F2 - modyfikacja oceny w zakresie [- 1.0, 1.0] na podstawie poprawnie uzyskanej wartości MCC (przy właściwych krokach modelowania, jednolitym set.seed(1)). OCENA=F1+/-1.0(na bazie F2), ale nie mniej niż 2.0 i nie więcej niż 5.0 (w wyjątkowym przypadku 5.5). Za szczególnie widoczną aktywność podczas zajęć możliwe jest podniesienie oceny o 0.5. Dodatkowe uwagi: - W przypadku oszukiwania OCENA=2.0 - Osoby nieobecne na zajęciach projektowych uzyskują ocenę 2.0. - Zaproponowanymi rozwiązaniami proszę nie dzielić się z innymi studentami - jeżeli zostanie wykryte, że jakieś rozwiązanie jest klonem rozwiązania zaproponowanego przez inną grupę/osobę (lub stopień podobieństwa jest wysoki) to obie grupy uzyskują ocenę ndst. (jeżeli nie jest całkowicie pewne kto od kogo kopiował), ewentualnie tylko grupa, która się przyzna, że skopiowała rozwiązanie uzyskuje ocenę ndst. [są dostępne narzędzia pozwalające sprawdzać podobieństwo kodów źródłowych automatycznie, miałem okazję recenzować pracę doktorską z tego obszaru].