반응형 분류 전체보기39 파이썬 동적 페이지에서 크롤링하기 bs4 + selenium * 패키지는 beautifulsoup4 하고 selenium을 다운받으면됨 * 필요한 단어의 고유 번호를 가지고 한국수어사전 사이트를 크롤링해서 단어의 영상 주소를 가져오려 했다. 크롤링은 편하고 많이 쓰이는 BeautifulSoup를 썼다 하지만 왼쪽의 페이지 소스처럼 videoarea id안에 밑줄친 주소를 가지고 와야하는데 아무리해도 None값이 나오더라. 그래서 전체 페이지 소스를 긁어와봤는데 videoArea 하부가 텅 비어있었다. 사이트는 동적인 작업으로 영상 주소를 삽입하나 보다,,,, 동적 사이트 크롤링은 한적 없어서 다소 귀찮았지만 우리에게 주어진 자료는 고유번호밖에 없기에 selenium을 사용해서 크롤링을 시도했다. selenium은 동적 페이지 크롤링할 때 정말 많이 쓰이는 라이브러.. 2020. 10. 8. Pycharm에서 stt파일 돌리기 이전의 글과는 전혀 무관하며 python37에서 speech v_1파일 만 가져와서 사용할 것입니다. 이전글의 잘못된 점 1. pycharm을 돌리는데 사용한 python37속 python.exe가 64비트가 아니라 32비트이다. -> stt를 돌리는 것에 있어서는 문제가 되지 않지만 나중에 형태소 분석을 할때 konlpy와 java를 사용해야하는데 그때 64 비트를 사용 해야한다.(32비트도 사용 가능하다고 생각했지만 안된다. 이유를 알고 싶지만 프로그램 실행 시'process finished with exit code -1073740791 (0xC0000409)'가 나오면서 원인 불명) 2. stt와 형태소 분석 파일을 합쳐야 하기때문에 결구 64비트를 이용하기로 결정 처음 stt파일을 만지는 과정에.. 2020. 10. 7. Python37폴더를 이용해 파이참에서 stt파일 실행 1. cmd 창에서 start appdata 입력 2. python 폴더 안에 제가 올린 python37넣어주세요 3. stt파일이 있는 새로운 폴더 하나 만들기 4. 파이참에서 프로젝트를 만들때 새로만든 stt가 있는 폴더로 만들고 base interpreter를 python37이 있는 경로로 설정 4-1 프로젝틀 위와 같은 방법으로 만들었는데 안될 경우 settings에 들어가서 python interpreter를 python37이 있는 경로로 설정 5. 완료 다들 되길 바래여.. 2020. 10. 7. [201007] 형태소 분석 '견학대상자는 한국외대 창업관련 우수활동 학생 8명, 교직원 2명, 교수 1명 등 총 11명입니다.' '선형대수학 이론은 회로해석, 신호 처리, 통신 네트워크, 인공지능, 컴퓨터그래픽, 동역학 등 공학 분야뿐만 아니라 자연과학이나 경제학 등에도 응용이 되는 매우 중요한 수학의 분야이다.' 두 문장을 예시로 돌렸을 때 화면과 같은 결과로 출력되는 걸 볼 수 있다. 함수를 조금 더 효율적으로 짜고 싶지만 지금 어떤 걸 쓰고 어떤 걸 지워야 할 지 판단이 안되기 때문에 함수 다듬는 건 나중에 하고 우선 코드를 만지려면 태그를 알고 있어야 한다. 우선 지금 ntags=22라고 했기 때문에 이걸 기준으로 본다. NC 보통명사 II 감탄사 NQ 고유명사 JC 격조사 NB 의존명사 JX 보조사 NN 수사 JP 서술격.. 2020. 10. 7. 이전 1 2 3 4 5 6 ··· 10 다음 반응형