Proponowane tematy badań statystycznych



Pobieranie 23,18 Kb.
Data24.12.2017
Rozmiar23,18 Kb.

Proponowane tematy badań statystycznych

Propozycje z roku akad. 2006/2007



  1. (1 osoba) Zbadać liczbę pojazdów przejeżdżających w ciągu minuty przez Most św. Rocha w Poznaniu w jedną, wybraną z góry stronę. Ważne elementy tego zadania: sposób pobrania próby (sensowny, praktyczny, próba wystarczająco duża); próba uchwycenia dziennej zmienności liczby pojazdów (np. przez podzielenie populacji na sensowne warstwy); próba oszacowania całkowitej liczby pojazdów przejeżdżających w ciągu doby i osobno w ciągu godzin porannych / popołudniowych. Ważne jest także ustalenie miejsca, którego minięcie przez pojazd oznacza przejechanie mostu.

Sugestia: Most św. Rocha (przynajmniej jego niewielką część) można obserwować z korytarza na 4. piętrze budynku WE PP. Nie ma konieczności obserwacji z narażaniem się na zmienne warunki pogodowe.


  1. (1 osoba) Badanie liczby pojazdów wjeżdżających w ciągu minuty w ulicę Berdychowo przez skrzyżowanie z al. Jana Pawła II. Ważne elementy tego zadania: sposób pobrania próby (sensowny, praktyczny, próba wystarczająco duża); próba uchwycenia dziennej zmienności liczby pojazdów (np. przez podzielenie populacji na sensowne warstwy); próba oszacowania całkowitej liczby pojazdów przejeżdżających w ciągu doby i osobno w ciągu godzin porannych i popołudniowych. Ważne jest także ustalenie miejsca, którego minięcie przez pojazd oznacza przejechanie skrzyżowania.

Sugestia: Zadane skrzyżowanie można bardzo wygodnie obserwować z korytarza na 8. piętrze budynku WE PP. Nie ma konieczności obserwacji z narażaniem się na zmienne warunki pogodowe.


  1. (1 osoba) Oszacowanie całkowitej wartości wszystkich książek obcojęzycznych w Księgarni Powszechnej (Stary Rynek w Poznaniu). Ważne elementy tego zadania: sposób pobrania próby (sensowny, praktyczny, dopasowany do struktury populacji; wystarczającego rozmiaru).




  1. (1 osoba) Oszacowanie całkowitej wartości wszystkich płyt DVD z filmami wystawionych do sprzedaży w Empiku w Poznaniu (Plac Wolności). Ważne elementy tego zadania: sposób pobrania próby (sensowny, praktyczny, dopasowany do struktury populacji; wystarczającego rozmiaru).




  1. (1 osoba) Analiza liczby listów elektronicznych przychodzących na własną skrzynkę pocztową w ciągu dnia. Próba dopasowania właściwego rozkładu teoretycznego do liczby listów przychodzących w ciągu dnia. Osobna analiza dla listów pożądanych i spamu. Porównanie tych podpopulacji (lub innych, sensownych podpopulacji).




  1. (1 osoba) Badanie liczby klientów wchodzących do wybranego supermarketu w ciągu minuty. Ważny element tego zadania: sposób pobrania próby, jej liczność i reprezentatywność, podział populacji ze względu na płeć. Próba dopasowania jakiegoś (właściwego) rozkładu teoretycznego do pobranych danych.




  1. (1 osoba) Badanie ceny i roku produkcji motocyklu klasy „Cross, Enduro” oferowanego w sprzedaży na allegro.pl. Interesuje nas tylko grupa motocykli niepromowanych, z dostępną ceną ”Kup teraz” (tę cenę należy traktować jako cenę sprzedaży). Ważny jest sensowny sposób pobrania próby i jej odpowiedni rozmiar. Konieczne jest oszacowanie lub obliczenie rozmiaru populacji. Interesująca jest współzależność ceny i roku produkcji. Być może konieczne będzie podzielenie populacji na podpopulacje i ich osobna analiza.

  2. (1 osoba) Badanie ceny pojedynczej płyty DVD z filmem sprzedawanej w allegro.pl („Płyty DVD - wydania pełne”). Celem badania jest porównanie średniej ceny płyty z kategorii „Komedie” ze średnią ceną płyty z kategorii „Sensacyjny”. Interesuje nas tylko grupa płyt niepromowanych, z dostępną ceną ”Kup teraz” (tę cenę należy traktować jako cenę sprzedaży). Ważny jest sensowny sposób pobrania próby i jej odpowiedni rozmiar. Dobrać i zastosować odpowiedni test statystyczny do porównania średnich. Czy konieczny jest podział populacji na warstwy (podpopulacje)?




  1. (1 osoba) Badanie ceny pojedynczej płyty CD z muzyką, sprzedawanej w allegro.pl. Celem badania jest porównanie średniej ceny płyty z kategorii „Jazz, Swing” ze średnią ceną płyty z kategorii „Składanki”. Interesuje nas tylko grupa płyt niepromowanych, z dostępną ceną ”Kup teraz” (tę cenę należy traktować jako cenę sprzedaży). Ważny jest sensowny sposób pobrania próby i jej odpowiedni rozmiar. Dobrać i zastosować odpowiedni test statystyczny do porównania średnich.




  1. (1 osoba) Badanie płci osób wchodzących do pewnej drogerii. Ważną sprawą jest rozważenie sensownego, reprezentatywnego pobrania próby (pokrycie całego tygodnia pracy i całego dnia pracy). Przy pobraniu próby można sięograniczyćz reprezentatywnością (np. do tylko 2 warstw, jeśli takie zostaną wyróżnione). Odpowiedzieć na pytanie, czy procent mężczyzn wchodzących do drogerii jest taki sam, jak procent mężczyzn w populacji Polski (odnieść się do wiarygodnych danych w tej ostatniej kwestii)..




  1. (2 osoby) Badanie trzech cech losowo wybranej książki w Empiku: liczba stron książki, cena, typ oprawy. Sprawdzić ewentualne zależności pomiędzy cechami. Odpowiedzieć na pytanie, czy średnia cena książki w twardej oprawie jest taka sama, jak w oprawie miękkiej. Jaki jest procent książek wydawanych w oprawie twardej? Czy to może zależeć od księgarnii?




  1. (2 osoby) Badanie wypełnienia (liczby pasażerów w stosunku do liczby miejsc) samochodu osobowego jadącego w Poznaniu. Zastanowić się nad sensownym, praktycznym pobraniem próby (czy konieczne jest rozproszenie geograficzne badania?), ale pobrać próbę o ograniczonym pokryciu całej populacji (dobrze to opisać) . Czy pora dnia może mieć znaczenie dla wartości tej cechy? Czy należy rozwarstwić populację?




  1. (1 osoba) Analiza średniego czasu sortowania tablic przy pomocy trzech różnych reprezentacji. Nalezy zanalizować średni czas sortowania tablic liczb całkowitych w trzech różnych reprezentacjach języka Java. Pierwsza reprezentacja to tablica liczb (int []), druga to lista obiektów (nietypowana, List), zawierająca obiekty java.lang.Integer, trzecia metoda to tablica typowana (List). Te trzy typy reprezentacji sortuje się przy pomocy metod, odpowiednio, klasy java.util.Arrays#sort() oraz Collections#sort(List). Czy średnie czasy sortowania takich samych instacji (tak samo ułożonych!) różnią się, czy są takie same?




  1. (1 osoba) Analiza średniego kosztu wykonania operacji na strukturach listowych w trzech różnych implementacjach. Należy zaprojektować program, który będzie wykonywał serię operacji wstawienia (add), usunięcia (remove) i pobrania (get) elementów listy. Jako typ elementu należy wybrać liczbę całkowitą (int). Następnie należy ów program wykonać na trzech różnych implementacjach list: biblioteki PCJ (http://pcj.sourceforge.net/, klasa IntList), biblioteki commons-collections (http://jakarta.apache.org/commons/collections/, klasa TreeList) oraz biblioteki standardowej języka Java (klasa java.util.ArrayList). Czy średnie czasy wykonania programu dla tych trzech bibliotek różnią się? Która z bibliotek jest najszybsza?

  2. (1 osoba) Analiza średniego kosztu wykonania operacji na strukturach słownikowych (Map) w trzech różnych implementacjach. Należy zaprojektować program, który będzie wykonywał serię operacji wstawienia (put), usunięcia (remove) i pobrania (get) elementów słownika (Map). Jako typ elementu należy wybrać liczbę całkowitą (int), jako typ wartości dowolnie jaki obiekt (Object). Następnie należy ów program wykonać na trzech różnych implementacjach list: biblioteki PCJ (http://pcj.sourceforge.net/, klasa IntKeyMap), biblioteki commons-collections (http://jakarta.apache.org/commons/collections/, klasa HashedMap) oraz biblioteki standardowej języka Java (klasa java.util.HashMap). Czy średnie czasy wykonania programu dla tych trzech bibliotek różnią się? Która z bibliotek jest najszybsza?




  1. (1 osoba) Porównanie dwóch dowolnych wyszukiwarek (np. Yahoo kontra Google, Hakia kontra Altavista, Onet kontra Interia) ze względu na średnią pozycję pierwszej wybieranej strony przez użytkownika. Należy przygotować zestaw co najmniej 40 słów/haseł kluczowych (np. losując ze słownika języka polskiego lub angielskiego). Każde słowo/hasło kluczowe jest wpisywane do dwóch badanych wyszukiwarek. Za każdym razem zapisywana jest pozycja pierwszej interesującej użytkownika strony.




  1. (1 osoba) Na portalu http://serwisy.gazeta.pl/film znajdują się recenzje filmów (http://serwisy.gazeta.pl/film/0,22535,1085356.html) najprawdopodobniej pisane przez krytyków filmowych. Kinematografia europejska jest często chwalona za tworzenie filmów bardziej ambitnych. Można spodziewać się, że w oczach krytyków filmy europejskie będą dostawać średnio lepszą ocenę niż filmy amerykańskie. Sprawdź powyższą hipotezę.




  1. (1 osoba) Analiza średniego czasu tworzenia zbioru reguł decyzyjnych przy pomocy algorytmu DomLEM w kilku ustalonych ustawieniach. Należy zbadać w jakim stopniu algorytm jest wrażliwy na liczbę atrybutów i liczbę przykładów opisujących analizowany zbiór danych. Dane i program implementujący algorytm DomLEM do pobrania. Do napisania skrypt uruchamiający program w różnych ustawieniach.




  1. (1 osoba) Analiza liczby reguł decyzyjnych tworzonych przez algorytmu DomLEM w kilku ustalonych ustawieniach. Należy zbadać w jakim stopniu algorytm jest wrażliwy na liczbę atrybutów i liczbę przykładów opisujących analizowany zbiór danych. Dane i program implementujący algorytm DomLEM do pobrania. Do napisania skrypt uruchamiający program w różnych ustawieniach.




  1. (1 osoba) Analiza porównawcza metod obliczających dolne przybliżenia zgodnie z metodyką zbiorów przybliżonych ze zmienną spójnością. Należy zbadać różnice w liczności dolnych przybliżeń w zależności od zastosowanej metody obliczania przybliżeń. Dane i program implementujący algorytm obliczający przybliżenia do pobrania. Do napisania skrypt uruchamiający program w różnych ustawieniach.



  1. (1 osoba) Zbadać, czy w zestawie stron serwisu BBC (www.bbc.co.uk/a-z/ zawiera listę alfabetyczną stron) jest co najmniej 20% stron poświęconych radiu?




  1. (1 osoba) Zbadać cenę drukarki atramentowej w serwisie www.allegro.pl (interesują nas tylko obiekty niepromowane, z dostępną ceną „Kup teraz”). Czy konieczne jest podzielenie całej populacji na podpopulacje (warstwy)? Ze względu na jaką pomocniczą cechę należy dokonać rozwarstwienia? Porównać średnie ceny w warstwach między sobą. Czy średnia cena drukarki jest większa od 300 zł?

  2. (1 osoba) Zbadać cenę drukarki laserowej w serwisie www.allegro.pl (interesują nas tylko obiekty niepromowane z dostępną ceną „Kup teraz”). Czy konieczne jest podzielenie całej populacji na podpopulacje (warstwy)? Ze względu na jaką pomocniczą cechę należy dokonać rozwarstwienia? Porównać średnie ceny w warstwach między sobą. Czy średnia cena drukarki jest większa niż 400 zł?




  1. (1 osoba) Zbadać cenę notebooka z procesorem Intel w serwisie www.allegro.pl (interesują nas tylko obiekty niepromowane z dostępną ceną „Kup teraz”). Czy konieczne jest podzielenie całej populacji na podpopulacje (warstwy)? Ze względu na jaką pomocniczą cechę należy dokonać rozwarstwienia? Porównać średnie ceny w warstwach między sobą. Czy średnia cena notebooka jest większa niż 1300 zł?




  1. (1 osoba) Zbadać cenę książek w serwisie www.allegro.pl (interesują nas tylko obiekty niepromowane z dostępną ceną „Kup teraz”) w dwu kategoriach: literatura piękna i kryminały/thrillery. Czy konieczne jest podzielenie całej populacji na podpopulacje (warstwy)? Ze względu na jaką pomocniczą cechę należy dokonać rozwarstwienia? Porównać średnie ceny w warstwach między sobą. Czy średnia cena kryminału jest inna niż tomu literatury pięknej?




  1. (1 osoba) Zbadać czy szanse otwarcia strony WWW w przypadku wpisania w przeglądarkę domeny o wzorze: www.XXXX.com, gdzie XXXX jest 4-elementową sekwencją małych liter alfabetu łacińskiego, są większe niż szanse, że domeny takiej jeszcze nie ma. Za otwarcie strony rozumie się otwarcie strony firmy/instytucji, która posługuje się daną nazwą jako swoją (czyli nie wchodzą w grę strony sprzedawców adresów). Proszę przeprowadzać eksperyment z włączonym popup blockerem (dużo stron porno).




  1. (2 osoby) Badanie polega na pomiarze czasu obsługi pojedynczego klienta przy kasie w hipermarkecie. Interesujący w tym badaniu jest średni czas trwania obsługi: czy jest dłuższy w weekendy niż w ciągu tygodnia? Konieczne byłoby dokładne zdefiniowanie tego, co jest mierzone (od kiedy do kiedy, np. od rozpoczęcia kasowania produktów aż do odejścia od kasy lub zakończenia ewentualnej rozmowy z kasjerem?) oraz co jest weekendem, a co dniem pracy.




  1. (2 osoby) Badanie polega na pomiarze kwoty zakupów i formy zapłaty pojedynczego klienta przy kasie w hipermarkecie. Interesująca w tym badaniu jest średnia kwota zakupów dla grup o różnej formie płatności (karta, gotówka, bony towarowe) i frakcja (prawdopodobieństwo wystąpienia) osób płacących kartą. Prawdopodobnie konieczne jest ustalenie wszystkich możliwych form płatności (czy np. płatność bonami jest osobną kategorią, czy raczej należy do płatności gotówką)




©operacji.org 2017
wyślij wiadomość

    Strona główna