.Rhistory

nrow = length(booknames),
ncol = length(uniq_kwds),
dimnames = list(booknames,
uniq_kwds))
# View(t(tmp_mat))  # 행에 비해 열이 많아서 전치행렬로 확인
# 6. 생성된 BOW 행렬에 가중치값 매핑
## matrix[ 도서명 , 키워드벡터 ] = 가중치벡터
for (el in res_list) {
tmp_mat[el$bookname, el$keywords] = el$weights
}
# 7. 행렬에 내적값 계산(첫 행 · 각 행)해서 열 추가
## 도서별 내적값 == 첫 번째 도서(인기도서)와의 연관도
inner_products = as.vector(tmp_mat[1,] %*% t(tmp_mat))
tmp_mat = cbind( tmp_mat, inner_products )
# 8. inner_products 열 기준으로 행렬 재정렬 → 행렬 rownames 저장
## == 모든 도서를 인기도서와의 관련도 순으로 정렬 → 추천도서 목록 저장
tmp_mat = tmp_mat[ order(tmp_mat[, 'inner_products'], decreasing = T), ]
tmp_recommend = rownames(tmp_mat)
# 9. 재정렬된 추천도서들의 ISBN 저장
new_idxs = c()
for (book in tmp_recommend) {
tmp_idx = grep(book, booknames)
new_idxs = c(new_idxs, tmp_idx)
}
tmp_recommend_ISBN = ISBNs[new_idxs]
# tmp_recommend
# tmp_recommend_ISBN
recommend_list[[idx]] = list(popbook = tmp_popbook,
popISBN = tmp_popISBN,
recommend_books = tmp_recommend[-1],
recommend_ISBN = tmp_recommend_ISBN[-1])
# check
print('=====================')
cat(idx, '번째 도서 :', tmp_popbook, '- 추천목록 생성 완료,',
ifelse( !any(is.na(recommend_list[[idx]])) ,
'NA값 없음', 'NA값 발견됨' ), '\n')
cat('추천도서들의 유사도 :', sort(inner_products[-1], decreasing = T))
print('=====================')
# check
}
recommend_list[[1]]
recommend_list[[1]]$recommend_books
str(recommend_list[[1]]$recommend_books
)
str(recommend_list[[1]]$recommend_books)
recommend_books <- recommend_list[[1]]$recommend_books
recommend_books
recommend_ISBN <- recommend_list[[1]]$recommend_ISBN
data.frame(recommend_books,recommend_books)
data.frame(recommend_books,recommend_ISBN)
recommend_ISBN
recommend_books
str(recommend_list[[1]])
is.na(lib_df$ISBN)
table(is.na(lib_df$ISBN))
recommend_books
str(recommend_list[[2]])
str(recommend_list[[3]])
str(recommend_list[[4]])
str(recommend_list[[5]])
str(recommend_list[[6]])
str(recommend_list[[7]])
str(recommend_list[[8]])
str(recommend_list[[9]])
str(recommend_list[[10]])
str(recommend_list[[5]])
recommend_books <- recommend_list[[5]]$recommend_books
recommend_ISBN <- recommend_list[[5]]$recommend_ISBN
data.frame(recommend_books,recommend_ISBN)
View(data.frame(recommend_books,recommend_ISBN))
View(data.frame(pop_book = recommend_list[[5]]$popbook,recommend_books,recommend_ISBN))
str(recommend_list[[1]])
str(recommend_list[[10]])
setwd('C:\\Users\\student\\R_semi_project\')
# rm(list = ls())
library(dplyr)
library(XML)
library(e1071)  # scaling을 위해 sigmoid() 사용
api_key = "6cbf90cf628c9007879727b2f5d6aa59a8f8a6fe77d1700476714f7ef9440ea6"
options(scipen = 99)
# 1. (ISBN아동_2019년_9-11월_아리랑어린이도서관) 인기 아동도서 상위 10개 수집
## '도서관/지역별 인기대출 도서 조회' API → (도서명, ISBN, 주제분류) 추출
lib_code = 111468  # 아리랑어린이도서관 코드
start_d = '2019-09-01'
end_d = '2019-11-30'
fileUrl = paste0('http://data4library.kr/api/loanItemSrchByLib?authKey=', api_key,
'&libCode=', lib_code, '&startDt=', start_d,
'&endDt=', end_d, '&addCode=7&pageSize=10')
xml_doc = xmlTreeParse(fileUrl,useInternal=TRUE)
pop_books = trimws(xpathSApply( xmlRoot(xml_doc), "//bookname", xmlValue)); pop_books
pop_ISBN = trimws(xpathSApply( xmlRoot(xml_doc), "//isbn13", xmlValue)); pop_ISBN
pop_classNum = as.integer(trimws(xpathSApply( xmlRoot(xml_doc), "//class_no", xmlValue))); pop_classNum
any(is.na(c(pop_books, pop_ISBN, pop_addNum, pop_classNum)))  # 정상이면 False
# 2. (2019년_11월_아리랑어린이도서관) 장서/대출 csv 데이터 로드 & 전처리
## columns : 도서명, ISBN, 주제분류, 도서권수, 대출건수
## (도서권수!=0 & 부가기호==7 & 누적대출건수==0) 충족하는 도서 추출 (비인기 아동도서들)
lib_df = read.csv('아리랑어린이도서관 장서 대출목록 (2019년 11월).csv',
stringsAsFactors=F )[c(2, 6, 8, 10, 11, 12)]
lib_df$주제분류번호 = as.integer(lib_df$주제분류번호)
colnames(lib_df)
nrow(lib_df)
lib_df = lib_df %>%
filter(도서권수 != 0 & !is.na(부가기호) & 부가기호==7) %>%
select(-c(부가기호, 도서권수))
lib_df = lib_df %>%
filter(대출건수==0) %>%
select(-대출건수)
nrow(lib_df)
str(lib_df)
head(lib_df,2)
table(is.na(lib_df))
# - 10개 인기도서 별로, 3~8 진행
## (한 권만 테스트하는 방법 : idx에 숫자 하나 할당하고 for문 안의 명령어 한 줄씩 실행)
recommend_list = list()
for (idx in 1:length(pop_books)) {
# 3. 인기도서와 '주제분류번호' 같은 비인기도서들 모두(m권) 추출
## 길이 m+1인 compare_books, compare_ISBN 벡터에 각각 저장
## (1+m < 20)인 경우, 전체 비인기도서들 중 무작위로 추가
tmp_popbook = pop_books[idx]
tmp_popISBN = pop_ISBN[idx]
compare_books = c(tmp_popbook,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$도서명)
compare_ISBN = c(tmp_popISBN,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$ISBN)
## 수집된 목록이 20권 미만인 경우, 무작위로 부족한 만큼 추출
if (length(compare_books) < 20) {
n_sample = 20 - length(compare_books)
compare_books = c( compare_books,
sample(lib_df$도서명[ lib_df$도서명 != compare_books ],
n_sample) )
compare_ISBN = c( compare_ISBN,
sample(lib_df$ISBN[ lib_df$ISBN != compare_ISBN ],
n_sample) )
}
cat(tmp_popbook, '도서의 compare_books', length(compare_books), '권 수집 완료\n')
cat('수집된 벡터들의 길이 :',
ifelse( length(compare_books) == length(compare_ISBN) , '정상',
'문제 발견!!! 확인이 필요합니다'), '\n')
# 4. 추출한 (20 ~ m+1)개 각 도서의 키워드, 가중치(표준화) 수집 - 이중 리스트 사용
## '도서 키워드 목록' API → 도서명, ISBN, 키워드벡터, 가중치(표준화)벡터 저장
## API response 성공적인 도서 10개 수집했을 때 중단 → 최대 11권의 키워드, 가중치(표준화) 수집
res_list = list()
list_idx = 1
for (call_idx in 1:length(compare_books)) {
tmp_ISBN = compare_ISBN[call_idx]
tmp_bookname = compare_books[call_idx]
tmp_url = paste0('http://data4library.kr/api/keywordList?authKey=', api_key,'&isbn13=', tmp_ISBN)
xml_doc = xmlTreeParse(tmp_url, useInternal=TRUE)
Sys.sleep(1)
tmp_kewords = trimws(xpathSApply( xmlRoot(xml_doc), "//word", xmlValue))
tmp_weights = as.integer(trimws(xpathSApply( xmlRoot(xml_doc),
"//weight", xmlValue)))
tmp_weights = as.vector(sigmoid(tmp_weights))  # scaling
if (length(tmp_kewords)==0) {
cat(tmp_bookname, '- 본 도서는 키워드가 제공되지 않아 수집하지 않습니다.\n')
next()
}
tmp_res_list = list(bookname = tmp_bookname, ISBN = tmp_ISBN,
keywords = tmp_kewords, weights = tmp_weights)
res_list[[list_idx]] = tmp_res_list
list_idx = list_idx+1
# check
cat(tmp_bookname, '-',
length(tmp_res_list$keywords), '개 키워드 수집 완료,',
ifelse( !any(is.na(tmp_res_list)) ,
'NA값 없음',
'NA값 발견됨' ), '\n')
if (call_idx%%50==0) {
print('======= 50번째 도서 완료 =======')
}
# check
if (length(res_list) > 10) {
cat('성공적으로', length(res_list), '개 도서를 수집했으므로 중단합니다.\n')
break()
}
}
# View(res_list)
# 5. 수집된 11개 도서에 대한 BOW(Bag of words) 행렬 생성 (영행렬)
## 행이름 = c(도서명들) ; 열이름 = c(uniq_kwds)
booknames = c()
uniq_kwds = c()
ISBNs = c()
for (el in res_list) {
uniq_kwds = unique(c(uniq_kwds, el$keywords))
booknames = c(booknames, el$bookname)
ISBNs = c(ISBNs, el$ISBN)
}
tmp_mat = matrix(0,
nrow = length(booknames),
ncol = length(uniq_kwds),
dimnames = list(booknames,
uniq_kwds))
# View(t(tmp_mat))  # 행에 비해 열이 많아서 전치행렬로 확인
# 6. 생성된 BOW 행렬에 가중치값 매핑
## matrix[ 도서명 , 키워드벡터 ] = 가중치벡터
for (el in res_list) {
tmp_mat[el$bookname, el$keywords] = el$weights
}
# 7. 행렬에 내적값 계산(첫 행 · 각 행)해서 열 추가
## 도서별 내적값 == 첫 번째 도서(인기도서)와의 연관도
inner_products = as.vector(tmp_mat[1,] %*% t(tmp_mat))
tmp_mat = cbind( tmp_mat, inner_products )
# 8. inner_products 열 기준으로 행렬 재정렬 → 행렬 rownames 저장
## == 모든 도서를 인기도서와의 관련도 순으로 정렬 → 추천도서 목록 저장
tmp_mat = tmp_mat[ order(tmp_mat[, 'inner_products'], decreasing = T), ]
tmp_recommend = rownames(tmp_mat)
# 9. 재정렬된 추천도서들의 ISBN 저장
new_idxs = c()
for (book in tmp_recommend) {
tmp_idx = grep(book, booknames)
new_idxs = c(new_idxs, tmp_idx)
}
tmp_recommend_ISBN = ISBNs[new_idxs]
# tmp_recommend
# tmp_recommend_ISBN
recommend_list[[idx]] = list(popbook = tmp_popbook,
popISBN = tmp_popISBN,
recommend_books = tmp_recommend[-1],
recommend_ISBN = tmp_recommend_ISBN[-1])
# check
print('=====================')
cat(idx, '번째 도서 :', tmp_popbook, '- 추천목록 생성 완료,',
ifelse( !any(is.na(recommend_list[[idx]])) ,
'NA값 없음', 'NA값 발견됨' ), '\n')
cat('추천도서들의 유사도 :', sort(inner_products[-1], decreasing = T))
print('=====================')
# check
}
View(recommend_list)
# # + 결과물 임시 저장
# saveRDS(res_list, '191227_마지막 11권 키워드+가중치 리스트.rds')
# saveRDS(recommend_list, '191227_최종결과물.rds')
setwd('C:\\Users\\student\\R_semi_project')
library(dplyr)
library(XML)
library(e1071)  # scaling을 위해 sigmoid() 사용
api_key = "6cbf90cf628c9007879727b2f5d6aa59a8f8a6fe77d1700476714f7ef9440ea6"
options(scipen = 99)
# 1. (ISBN아동_2019년_9-11월_아리랑어린이도서관) 인기 아동도서 상위 10개 수집
## '도서관/지역별 인기대출 도서 조회' API → (도서명, ISBN, 주제분류) 추출
lib_code = 111468  # 아리랑어린이도서관 코드
start_d = '2019-09-01'
end_d = '2019-11-30'
fileUrl = paste0('http://data4library.kr/api/loanItemSrchByLib?authKey=', api_key,
'&libCode=', lib_code, '&startDt=', start_d,
'&endDt=', end_d, '&addCode=7&pageSize=10')
xml_doc = xmlTreeParse(fileUrl,useInternal=TRUE)
pop_books = trimws(xpathSApply( xmlRoot(xml_doc), "//bookname", xmlValue)); pop_books
pop_ISBN = trimws(xpathSApply( xmlRoot(xml_doc), "//isbn13", xmlValue)); pop_ISBN
pop_classNum = as.integer(trimws(xpathSApply( xmlRoot(xml_doc), "//class_no", xmlValue))); pop_classNum
any(is.na(c(pop_books, pop_ISBN, pop_addNum, pop_classNum)))  # 정상이면 False
# 2. (2019년_11월_아리랑어린이도서관) 장서/대출 csv 데이터 로드 & 전처리
## columns : 도서명, ISBN, 주제분류, 도서권수, 대출건수
## (도서권수!=0 & 부가기호==7 & 누적대출건수==0) 충족하는 도서 추출 (비인기 아동도서들)
lib_df = read.csv('아리랑어린이도서관 장서 대출목록 (2019년 11월).csv',
stringsAsFactors=F )[c(2, 6, 8, 10, 11, 12)]
lib_df$주제분류번호 = as.integer(lib_df$주제분류번호)
colnames(lib_df)
nrow(lib_df)
lib_df = lib_df %>%
filter(도서권수 != 0 & !is.na(부가기호) & 부가기호==7) %>%
select(-c(부가기호, 도서권수))
lib_df = lib_df %>%
filter(대출건수==0) %>%
select(-대출건수)
nrow(lib_df)
str(lib_df)
head(lib_df,2)
table(is.na(lib_df))
# - 10개 인기도서 별로, 3~8 진행
## (한 권만 테스트하는 방법 : idx에 숫자 하나 할당하고 for문 안의 명령어 한 줄씩 실행)
recommend_list = list()
for (idx in 1:length(pop_books)) {
# 3. 인기도서와 '주제분류번호' 같은 비인기도서들 모두(m권) 추출
## 길이 m+1인 compare_books, compare_ISBN 벡터에 각각 저장
## (1+m < 20)인 경우, 전체 비인기도서들 중 무작위로 추가
tmp_popbook = pop_books[idx]
tmp_popISBN = pop_ISBN[idx]
compare_books = c(tmp_popbook,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$도서명)
compare_ISBN = c(tmp_popISBN,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$ISBN)
## 수집된 목록이 20권 미만인 경우, 무작위로 부족한 만큼 추출
if (length(compare_books) < 20) {
n_sample = 20 - length(compare_books)
compare_books = c( compare_books,
sample(lib_df$도서명[ lib_df$도서명 != compare_books ],
n_sample) )
compare_ISBN = c( compare_ISBN,
sample(lib_df$ISBN[ lib_df$ISBN != compare_ISBN ],
n_sample) )
}
cat(tmp_popbook, '도서의 compare_books', length(compare_books), '권 수집 완료\n')
cat('수집된 벡터들의 길이 :',
ifelse( length(compare_books) == length(compare_ISBN) , '정상',
'문제 발견!!! 확인이 필요합니다'), '\n')
# 4. 추출한 (20 ~ m+1)개 각 도서의 키워드, 가중치(표준화) 수집 - 이중 리스트 사용
## '도서 키워드 목록' API → 도서명, ISBN, 키워드벡터, 가중치(표준화)벡터 저장
## API response 성공적인 도서 10개 수집했을 때 중단 → 최대 11권의 키워드, 가중치(표준화) 수집
res_list = list()
list_idx = 1
for (call_idx in 1:length(compare_books)) {
tmp_ISBN = compare_ISBN[call_idx]
tmp_bookname = compare_books[call_idx]
tmp_url = paste0('http://data4library.kr/api/keywordList?authKey=', api_key,'&isbn13=', tmp_ISBN)
xml_doc = xmlTreeParse(tmp_url, useInternal=TRUE)
Sys.sleep(1)
tmp_kewords = trimws(xpathSApply( xmlRoot(xml_doc), "//word", xmlValue))
tmp_weights = as.integer(trimws(xpathSApply( xmlRoot(xml_doc),
"//weight", xmlValue)))
tmp_weights = as.vector(sigmoid(tmp_weights))  # scaling
if (length(tmp_kewords)==0) {
cat(tmp_bookname, '- 본 도서는 키워드가 제공되지 않아 수집하지 않습니다.\n')
next()
}
tmp_res_list = list(bookname = tmp_bookname, ISBN = tmp_ISBN,
keywords = tmp_kewords, weights = tmp_weights)
res_list[[list_idx]] = tmp_res_list
list_idx = list_idx+1
# check
cat(tmp_bookname, '-',
length(tmp_res_list$keywords), '개 키워드 수집 완료,',
ifelse( !any(is.na(tmp_res_list)) ,
'NA값 없음',
'NA값 발견됨' ), '\n')
if (call_idx%%50==0) {
print('======= 50번째 도서 완료 =======')
}
# check
if (length(res_list) > 10) {
cat('성공적으로', length(res_list), '개 도서를 수집했으므로 중단합니다.\n')
break()
}
}
# View(res_list)
# 5. 수집된 11개 도서에 대한 BOW(Bag of words) 행렬 생성 (영행렬)
## 행이름 = c(도서명들) ; 열이름 = c(uniq_kwds)
booknames = c()
uniq_kwds = c()
ISBNs = c()
for (el in res_list) {
uniq_kwds = unique(c(uniq_kwds, el$keywords))
booknames = c(booknames, el$bookname)
ISBNs = c(ISBNs, el$ISBN)
}
tmp_mat = matrix(0,
nrow = length(booknames),
ncol = length(uniq_kwds),
dimnames = list(booknames,
uniq_kwds))
# View(t(tmp_mat))  # 행에 비해 열이 많아서 전치행렬로 확인
# 6. 생성된 BOW 행렬에 가중치값 매핑
## matrix[ 도서명 , 키워드벡터 ] = 가중치벡터
for (el in res_list) {
tmp_mat[el$bookname, el$keywords] = el$weights
}
# 7. 행렬에 내적값 계산(첫 행 · 각 행)해서 열 추가
## 도서별 내적값 == 첫 번째 도서(인기도서)와의 연관도
inner_products = as.vector(tmp_mat[1,] %*% t(tmp_mat))
tmp_mat = cbind( tmp_mat, inner_products )
# 8. inner_products 열 기준으로 행렬 재정렬 → 행렬 rownames 저장
## == 모든 도서를 인기도서와의 관련도 순으로 정렬 → 추천도서 목록 저장
tmp_mat = tmp_mat[ order(tmp_mat[, 'inner_products'], decreasing = T), ]
tmp_recommend = rownames(tmp_mat)
# 9. 재정렬된 추천도서들의 ISBN 저장
new_idxs = c()
for (book in tmp_recommend) {
tmp_idx = grep(book, booknames)
new_idxs = c(new_idxs, tmp_idx)
}
tmp_recommend_ISBN = ISBNs[new_idxs]
# tmp_recommend
# tmp_recommend_ISBN
recommend_list[[idx]] = list(popbook = tmp_popbook,
popISBN = tmp_popISBN,
recommend_books = tmp_recommend[-1],
recommend_ISBN = tmp_recommend_ISBN[-1])
# check
print('=====================')
cat(idx, '번째 도서 :', tmp_popbook, '- 추천목록 생성 완료,',
ifelse( !any(is.na(recommend_list[[idx]])) ,
'NA값 없음', 'NA값 발견됨' ), '\n')
cat('추천도서들의 유사도 :', sort(inner_products[-1], decreasing = T))
print('=====================')
# check
}
length(pop_books)
# - 10개 인기도서 별로, 3~8 진행
## (한 권만 테스트하는 방법 : idx에 숫자 하나 할당하고 for문 안의 명령어 한 줄씩 실행)
recommend_list = list()
for (idx in 10:length(pop_books)) {
# 3. 인기도서와 '주제분류번호' 같은 비인기도서들 모두(m권) 추출
## 길이 m+1인 compare_books, compare_ISBN 벡터에 각각 저장
## (1+m < 20)인 경우, 전체 비인기도서들 중 무작위로 추가
tmp_popbook = pop_books[idx]
tmp_popISBN = pop_ISBN[idx]
compare_books = c(tmp_popbook,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$도서명)
compare_ISBN = c(tmp_popISBN,
lib_df[ lib_df$주제분류번호 == pop_classNum[idx], ]$ISBN)
## 수집된 목록이 20권 미만인 경우, 무작위로 부족한 만큼 추출
if (length(compare_books) < 20) {
n_sample = 20 - length(compare_books)
compare_books = c( compare_books,
sample(lib_df$도서명[ lib_df$도서명 != compare_books ],
n_sample) )
compare_ISBN = c( compare_ISBN,
sample(lib_df$ISBN[ lib_df$ISBN != compare_ISBN ],
n_sample) )
}
cat(tmp_popbook, '도서의 compare_books', length(compare_books), '권 수집 완료\n')
cat('수집된 벡터들의 길이 :',
ifelse( length(compare_books) == length(compare_ISBN) , '정상',
'문제 발견!!! 확인이 필요합니다'), '\n')
# 4. 추출한 (20 ~ m+1)개 각 도서의 키워드, 가중치(표준화) 수집 - 이중 리스트 사용
## '도서 키워드 목록' API → 도서명, ISBN, 키워드벡터, 가중치(표준화)벡터 저장
## API response 성공적인 도서 10개 수집했을 때 중단 → 최대 11권의 키워드, 가중치(표준화) 수집
res_list = list()
list_idx = 1
for (call_idx in 1:length(compare_books)) {
tmp_ISBN = compare_ISBN[call_idx]
tmp_bookname = compare_books[call_idx]
tmp_url = paste0('http://data4library.kr/api/keywordList?authKey=', api_key,'&isbn13=', tmp_ISBN)
xml_doc = xmlTreeParse(tmp_url, useInternal=TRUE)
Sys.sleep(1)
tmp_kewords = trimws(xpathSApply( xmlRoot(xml_doc), "//word", xmlValue))
tmp_weights = as.integer(trimws(xpathSApply( xmlRoot(xml_doc),
"//weight", xmlValue)))
tmp_weights = as.vector(sigmoid(tmp_weights))  # scaling
if (length(tmp_kewords)==0) {
cat(tmp_bookname, '- 본 도서는 키워드가 제공되지 않아 수집하지 않습니다.\n')
next()
}
tmp_res_list = list(bookname = tmp_bookname, ISBN = tmp_ISBN,
keywords = tmp_kewords, weights = tmp_weights)
res_list[[list_idx]] = tmp_res_list
list_idx = list_idx+1
# check
cat(tmp_bookname, '-',
length(tmp_res_list$keywords), '개 키워드 수집 완료,',
ifelse( !any(is.na(tmp_res_list)) ,
'NA값 없음',
'NA값 발견됨' ), '\n')
if (call_idx%%50==0) {
print('======= 50번째 도서 완료 =======')
}
# check
if (length(res_list) > 10) {
cat('성공적으로', length(res_list), '개 도서를 수집했으므로 중단합니다.\n')
break()
}
}
# View(res_list)
# 5. 수집된 11개 도서에 대한 BOW(Bag of words) 행렬 생성 (영행렬)
## 행이름 = c(도서명들) ; 열이름 = c(uniq_kwds)
booknames = c()
uniq_kwds = c()
ISBNs = c()
for (el in res_list) {
uniq_kwds = unique(c(uniq_kwds, el$keywords))
booknames = c(booknames, el$bookname)
ISBNs = c(ISBNs, el$ISBN)
}
tmp_mat = matrix(0,
nrow = length(booknames),
ncol = length(uniq_kwds),
dimnames = list(booknames,
uniq_kwds))
# View(t(tmp_mat))  # 행에 비해 열이 많아서 전치행렬로 확인
# 6. 생성된 BOW 행렬에 가중치값 매핑
## matrix[ 도서명 , 키워드벡터 ] = 가중치벡터
for (el in res_list) {
tmp_mat[el$bookname, el$keywords] = el$weights
}
# 7. 행렬에 내적값 계산(첫 행 · 각 행)해서 열 추가
## 도서별 내적값 == 첫 번째 도서(인기도서)와의 연관도
inner_products = as.vector(tmp_mat[1,] %*% t(tmp_mat))
tmp_mat = cbind( tmp_mat, inner_products )
# 8. inner_products 열 기준으로 행렬 재정렬 → 행렬 rownames 저장
## == 모든 도서를 인기도서와의 관련도 순으로 정렬 → 추천도서 목록 저장
tmp_mat = tmp_mat[ order(tmp_mat[, 'inner_products'], decreasing = T), ]
tmp_recommend = rownames(tmp_mat)
# 9. 재정렬된 추천도서들의 ISBN 저장
new_idxs = c()
for (book in tmp_recommend) {
tmp_idx = grep(book, booknames)
new_idxs = c(new_idxs, tmp_idx)
}
tmp_recommend_ISBN = ISBNs[new_idxs]
# tmp_recommend
# tmp_recommend_ISBN
recommend_list[[idx]] = list(popbook = tmp_popbook,
popISBN = tmp_popISBN,
recommend_books = tmp_recommend[-1],
recommend_ISBN = tmp_recommend_ISBN[-1])
# check
print('=====================')
cat(idx, '번째 도서 :', tmp_popbook, '- 추천목록 생성 완료,',
ifelse( !any(is.na(recommend_list[[idx]])) ,
'NA값 없음', 'NA값 발견됨' ), '\n')
cat('추천도서들의 유사도 :', sort(inner_products[-1], decreasing = T))
print('=====================')
# check
}
View(recommend_list)
View(recommend_list)
recommend_books <- recommend_list[[10]]$recommend_books
recommend_ISBN <- recommend_list[[10]]$recommend_ISBN
View(data.frame(pop_book = recommend_list[[10]]$popbook,recommend_books,recommend_ISBN))
recommend_books <- recommend_list[[10]]$recommend_books[1:9]
recommend_ISBN <- recommend_list[[10]]$recommend_ISBN
View(data.frame(pop_book = recommend_list[[10]]$popbook,recommend_books,recommend_ISBN))