본문 바로가기
코딩 테스트&알고리즘/프로그래머스 level 3

[파이썬] 프로그래머스 - 광고 삽입

by 창현2 2021. 8. 25.
  • 광고 삽입

문제 설명

카카오TV에서 유명한 크리에이터로 활동 중인 죠르디는 환경 단체로부터 자신의 가장 인기있는 동영상에 지구온난화의 심각성을 알리기 위한 공익광고를 넣어 달라는 요청을 받았습니다. 평소에 환경 문제에 관심을 가지고 있던 "죠르디"는 요청을 받아들였고 광고효과를 높이기 위해 시청자들이 가장 많이 보는 구간에 공익광고를 넣으려고 합니다. "죠르디"는 시청자들이 해당 동영상의 어떤 구간을 재생했는 지 알 수 있는 재생구간 기록을 구했고, 해당 기록을 바탕으로 공익광고가 삽입될 최적의 위치를 고를 수 있었습니다.
참고로 광고는 재생 중인 동영상의 오른쪽 아래에서 원래 영상과 동시에 재생되는 PIP(Picture in Picture) 형태로 제공됩니다.

다음은 "죠르디"가 공익광고가 삽입될 최적의 위치를 고르는 과정을 그림으로 설명한 것입니다.

  • 그림의 파란색 선은 광고를 검토 중인 "죠르디" 동영상의 전체 재생 구간을 나타냅니다.
    • 위 그림에서, "죠르디" 동영상의 총 재생시간은 02시간 03분 55초 입니다.
  • 그림의 검은색 선들은 각 시청자들이 "죠르디"의 동영상을 재생한 구간의 위치를 표시하고 있습니다.
    • 검은색 선의 가운데 숫자는 각 재생 기록을 구분하는 ID를 나타냅니다.
    • 검은색 선에 표기된 왼쪽 끝 숫자와 오른쪽 끝 숫자는 시청자들이 재생한 동영상 구간의 시작 시각과 종료 시각을 나타냅니다.
    • 위 그림에서, 3번 재생 기록은 00시 25분 50초 부터 00시 48분 29초 까지 총 00시간 22분 39초 동안 죠르디의 동영상을 재생했습니다. 1
    • 위 그림에서, 1번 재생 기록은 01시 20분 15초 부터 01시 45분 14초 까지 총 00시간 24분 59초 동안 죠르디의 동영상을 재생했습니다.
  • 그림의 빨간색 선은 "죠르디"가 선택한 최적의 공익광고 위치를 나타냅니다.
    • 만약 공익광고의 재생시간이 00시간 14분 15초라면, 위의 그림처럼 01시 30분 59초 부터 01시 45분 14초 까지 공익광고를 삽입하는 것이 가장 좋습니다. 이 구간을 시청한 시청자들의 누적 재생시간이 가장 크기 때문입니다.
    • 01시 30분 59초 부터 01시 45분 14초 까지의 누적 재생시간은 다음과 같이 계산됩니다.
      • 01시 30분 59초 부터 01시 37분 44초 까지 : 4번, 1번 재생 기록이 두차례 있으므로 재생시간의 합은 00시간 06분 45초 X 2 = 00시간 13분 30초
      • 01시 37분 44초 부터 01시 45분 14초 까지 : 4번, 1번, 5번 재생 기록이 세차례 있으므로 재생시간의 합은 00시간 07분 30초 X 3 = 00시간 22분 30초
      • 따라서, 이 구간 시청자들의 누적 재생시간은 00시간 13분 30초 + 00시간 22분 30초 = 00시간 36분 00초입니다.

[문제]

"죠르디"의 동영상 재생시간 길이 play_time, 공익광고의 재생시간 길이 adv_time, 시청자들이 해당 동영상을 재생했던 구간 정보 logs가 매개변수로 주어질 때, 시청자들의 누적 재생시간이 가장 많이 나오는 곳에 공익광고를 삽입하려고 합니다. 이때, 공익광고가 들어갈 시작 시각을 구해서 return 하도록 solution 함수를 완성해주세요. 만약, 시청자들의 누적 재생시간이 가장 많은 곳이 여러 곳이라면, 그 중에서 가장 빠른 시작 시각을 return 하도록 합니다.

[제한사항]

  • play_time, adv_time은 길이 8로 고정된 문자열입니다.
    • play_time, adv_time은 HH:MM:SS 형식이며, 00:00:01 이상 99:59:59 이하입니다.
    • 즉, 동영상 재생시간과 공익광고 재생시간은 00시간 00분 01초 이상 99시간 59분 59초 이하입니다.
    • 공익광고 재생시간은 동영상 재생시간보다 짧거나 같게 주어집니다.
  • logs는 크기가 1 이상 300,000 이하인 문자열 배열입니다.
    • logs 배열의 각 원소는 시청자의 재생 구간을 나타냅니다.
    • logs 배열의 각 원소는 길이가 17로 고정된 문자열입니다.
    • logs 배열의 각 원소는 H1:M1:S1-H2:M2:S2 형식입니다.
      • H1:M1:S1은 동영상이 시작된 시각, H2:M2:S2는 동영상이 종료된 시각을 나타냅니다.
      • H1:M1:S1는 H2:M2:S2보다 1초 이상 이전 시각으로 주어집니다.
      • H1:M1:S1와 H2:M2:S2는 play_time 이내의 시각입니다.
  • 시간을 나타내는 HH, H1, H2의 범위는 00~99, 분을 나타내는 MM, M1, M2의 범위는 00~59, 초를 나타내는 SS, S1, S2의 범위는 00~59까지 사용됩니다. 잘못된 시각은 입력으로 주어지지 않습니다. (예: 04:60:24, 11:12:78, 123:12:45 등)
  • return 값의 형식
    • 공익광고를 삽입할 시각을 HH:MM:SS 형식의 8자리 문자열로 반환합니다.

[입출력 예]

play_timeadv_timelogsresult

"02:03:55" "00:14:15" ["01:20:15-01:45:14", "00:40:31-01:00:00", "00:25:50-00:48:29", "01:30:59-01:53:29", "01:37:44-02:02:30"] "01:30:59"
"99:59:59" "25:00:00" ["69:59:59-89:59:59", "01:00:00-21:00:00", "79:59:59-99:59:59", "11:00:00-31:00:00"] "01:00:00"
"50:00:00" "50:00:00" ["15:36:51-38:21:49", "10:14:18-15:36:51", "38:21:49-42:51:45"] "00:00:00"

입출력 예에 대한 설명


입출력 예 #1
문제 예시와 같습니다.

입출력 예 #2

01:00:00에 공익광고를 삽입하면 26:00:00까지 재생되며, 이곳이 가장 좋은 위치입니다. 이 구간의 시청자 누적 재생시간은 다음과 같습니다.

  • 01:00:00-11:00:00 : 해당 구간이 1회(2번 기록) 재생되었으므로 누적 재생시간은 10시간 00분 00초 입니다.
  • 11:00:00-21:00:00 : 해당 구간이 2회(2번, 4번 기록) 재생되었으므로 누적 재생시간은 20시간 00분 00초 입니다.
  • 21:00:00-26:00:00 : 해당 구간이 1회(4번 기록) 재생되었으므로 누적 재생시간은 05시간 00분 00초 입니다.
  • 따라서, 이 구간의 시청자 누적 재생시간은 10시간 00분 00초 + 20시간 00분 00초 + 05시간 00분 00초 = 35시간 00분 00초 입니다.
  • 초록색으로 표시된 구간(69:59:59-94:59:59)에 광고를 삽입해도 동일한 결과를 얻을 수 있으나, 01:00:00이 69:59:59 보다 빠른 시각이므로, "01:00:00"을 return 합니다.

입출력 예 #3

동영상 재생시간과 공익광고 재생시간이 같으므로, 삽입할 수 있는 위치는 맨 처음(00:00:00)이 유일합니다.


  1. 동영상 재생시간 = 재생이 종료된 시각 - 재생이 시작된 시각(예를 들어, 00시 00분 01초부터 00시 00분 10초까지 동영상이 재생되었다면, 동영상 재생시간은 9초 입니다.) 

https://programmers.co.kr/learn/courses/30/lessons/72414

 

코딩테스트 연습 - 광고 삽입

시간을 나타내는 HH, H1, H2의 범위는 00~99, 분을 나타내는 MM, M1, M2의 범위는 00~59, 초를 나타내는 SS, S1, S2의 범위는 00~59까지 사용됩니다. 잘못된 시각은 입력으로 주어지지 않습니다. (예: 04:60:24, 11

programmers.co.kr

 


def change_sec(string_time):
    return int(string_time[0:2])*60*60 + int(string_time[3:5])*60 + int(string_time[6:8])

def change_time(sec):
    h = sec//60//60
    m = (sec - h*60*60)//60
    s = (sec - h*60*60 - m*60)
    return str(h).zfill(2)+":"+str(m).zfill(2)+":"+str(s).zfill(2)

def solution(play_time, adv_time, logs):
    answer = ''
    time_list = [0 for _ in range(100*60*60)]
    play_sec, adv_sec = change_sec(play_time), change_sec(adv_time)
    
    start_end = []
    logs.sort()
    for i in range(len(logs)):
        start_sec = change_sec(logs[i][:8])
        end_sec = change_sec(logs[i][9:])
        
        #아래 코드를 사용하면, 시간초과 발생!!!!
        #for j in range(start_sec, end_sec):
            #time_list[j] += 1
        #대신에, dp를 사용하였다. dp를 사용하기 위하여 start와 end를 체크한다.
        start_end.append([start_sec, end_sec])
    
    dp = [0 for _ in range(100*60*60)]
    for i in range(len(start_end)):
        #start에는 +1을, end에는 -1
        dp[start_end[i][0]] += 1
        dp[start_end[i][1]] -= 1
    
    
    val = 0
    for i in range(len(time_list)):
    	#val에다가 dp[i]값을 더해주며 갱신한다. 
        #이것으로 O(300,000*360,060)대신에 O(300,000+300,000+360,060)이 되었다.
        # O(108018000000) vs O(960060) 엄청난 차이다.
        val = val + dp[i]
        time_list[i] += val
    
    answer_time = 0
    adv_sum = 0
    adv_start, adv_end = 0, adv_sec
    for i in range(adv_start, adv_end):
        adv_sum += time_list[i]
    adv_sum_max = adv_sum
    
    # 투포인터 알고리즘 사용
    while adv_end < play_sec:
        adv_start += 1
        adv_end += 1
        adv_sum = adv_sum - time_list[adv_start] + time_list[adv_end]
        
        if adv_sum > adv_sum_max:
            adv_sum_max = adv_sum
            answer_time = adv_start+1
        
    return change_time(answer_time)

 

정확성  테스트
테스트 1 〉	통과 (57.81ms, 15.9MB)
테스트 2 〉	통과 (67.29ms, 16.8MB)
테스트 3 〉	통과 (81.80ms, 18MB)
테스트 4 〉	통과 (222.80ms, 38.2MB)
테스트 5 〉	통과 (378.68ms, 39.3MB)
테스트 6 〉	통과 (108.81ms, 15.9MB)
테스트 7 〉	통과 (602.76ms, 74.1MB)
테스트 8 〉	통과 (684.80ms, 74MB)
테스트 9 〉	통과 (993.36ms, 97MB)
테스트 10 〉	통과 (1215.52ms, 96.9MB)
테스트 11 〉	통과 (1134.26ms, 97MB)
테스트 12 〉	통과 (1049.61ms, 86MB)
테스트 13 〉	통과 (1192.80ms, 97MB)
테스트 14 〉	통과 (850.68ms, 87.1MB)
테스트 15 〉	통과 (90.12ms, 15.7MB)
테스트 16 〉	통과 (888.94ms, 86.3MB)
테스트 17 〉	통과 (1243.01ms, 96.9MB)
테스트 18 〉	통과 (918.66ms, 85.9MB)
테스트 19 〉	통과 (55.01ms, 15.8MB)
테스트 20 〉	통과 (53.22ms, 15.8MB)
테스트 21 〉	통과 (266.20ms, 35.1MB)
테스트 22 〉	통과 (269.51ms, 35.2MB)
테스트 23 〉	통과 (963.83ms, 92.9MB)
테스트 24 〉	통과 (935.84ms, 86MB)
테스트 25 〉	통과 (99.63ms, 15.6MB)
테스트 26 〉	통과 (75.70ms, 15.7MB)
테스트 27 〉	통과 (87.96ms, 15.6MB)
테스트 28 〉	통과 (71.35ms, 15.6MB)
테스트 29 〉	통과 (71.16ms, 15.7MB)
테스트 30 〉	통과 (74.45ms, 15.8MB)
테스트 31 〉	통과 (74.26ms, 15.8MB)

 

후기

 문자열+dp+투포인터 문제라고 할 수 있다. 시간효율을 따져야 하는게 아주 까다롭다. 아무생각 없이 탐색이네? 했다가 O(N^2)이 하나라도 있다면 끝나는 문제다. 코드를 작성하기 전에 시간복잡도를 어떻게 최소화 시킬지 생각하는게 아주 중요하다. 까까오가 어렵기로 소문났지만 (나에겐)정말 어렵다. 문제의 제한조건을 제대로 보지 않으면 무조건 틀리게 해놓았다... 시간제한과 시간효율성을 고려하는게 최근 문제일수록 더 심해지는 것 같다. 

 삽질을 많이 한 후에 풀기는 했는데 실제로 시간제한 있는 상황이라면 무조건 못맞출듯 싶다.

 

 

풀이

* logs를 logs와 비교하면 안된다. 시간 복잡도가 O(300,000*300,000 = 90,000,000,000)으로, 이렇게 풀면 안된다.

* 때문에 0초부터 100*60*60(99시59분59초) 까지의 크기를 가진 시간리스트를 설정하고, 이것을 쓴다.

* 각각 log에서 시작시간부터 끝나는시간까지 초마다 1을 더해주며, 이것들이 합쳐지면 전체 시간에서 어느 구간이 가장 큰지를 파악 할 수 있다.

* 하지만 또 logs 반복문 안에서 시간리스트를 시작~끝까지 더해주는 것도 안된다. 이럴 경우 O(300,000*360,060 = 108,018,000,000) 가 된다.

* 때문에 반드시 DP를 사용하여 시간리스트를 만들어야 한다. 공간복잡도를 희생해서 시간복잡도를 반드시 최소화 시켜야 한다. DP를 사용하면 O(300,000+300,000+360,060 = 960060)이 된다.

* DP를 쓰는 방법은, 먼저 logs반복문 안에서 각 로그마다 start시간, end시간을 저장한다. 그 다음에는 시간리스트[100*60*60]와 같은 크기를 가진 DP[100*60*60] 배열을 만든다. start시간과 end시간을 저장했던 start_end 리스트를 하나씩 탐색한다. 각각 start시간에는 DP[위치] += 1 해주며, end시간에는 DP[위치] -= 1 해줘야 한다. 결국 끝까지 가면, DP로 갱신정보를 얻을 수가 있다.

* DP를 통해서 time 리스트를 만들었다면, 이 time 리스트를 투포인터 알고리즘을 사용하여 누적 시간이 가장 많은 곳을 찾아낸다.

* 일단 0초부터~광고시간까지의 누적 시간을 초깃값으로 삼는다. 그리고 초깃값(시작~광고시간까지)에서 1초씩 앞으로 이동한다. 앞1초를 더하고, 뒤에1초를 뺀다면 누적 시간을 계속 구할 수가 있다. 이 누적시간중에서 가장최대이며 가장먼저 인 것이 답.

 

예제

댓글