본문 바로가기

낮코밤리104

[NLP] 정규표현식을 활용한 전처리 및 데이터 추출 제가 군대에 있었던 시절, 빅데이터라는 단어가 큰 화두였습니다. 그리고 약 10년 정도가 지난 2023년에서 빅데이터는 이제 익숙해진 단어의 반열에 든 것 같습니다. 하지만, 빅데이터의 80%이상은 비정형 데이터가 될 것이라는 사실을 많은 사람들은 아직 모르고 있습니다. IBM의 리포트에 의하면 2025년 까지 대부분의 데이터는 비정형 데이터가 차지할 것이라 합니다. 비정형 데이터의 대부분은 텍스트, 이미지, 영상, 음원 등으로 특별한 틀이 잡혀있지 않습니다. 그렇게 때문에 빅데이터 분석의 가장 핵심적인 부분은 모델링이 아닌 전처리입니다. 비정형 데이터를 정형화 하고 의미있는 데이터로 변형 및 처리해서 사용할 수 있게끔 만드는 작업을 전처리 작업이라고 합니다. 정부에서도 적극 지원 중이며, 떠오르는 부업.. 2023. 1. 29.
[웹크롤링 2탄] selenium webdriver를 활용한 상품 리스트 크롤링 웹크롤링 1탄에서 requests와 bs4을 이용하여 간단한 웹사이트 크롤링 방법에 대해 다뤘습니다. [웹크롤링 1탄] requests와 bs4를 활용한 레시피 목록 크롤링 회사에서 혹은 개인 프로젝트를 진행할 때 데이터를 크롤링해 오는 경우가 종종 있습니다. 제품 데이터를 가져온다던지, 최근 2년 치의 경제 뉴스 기사를 모은다던지 등 웹사이트에서 데이터를 jakely.tistory.com 이번 포스트에서는 좀 더 구조가 복잡하고 Javascript를 포함한 더 어려운 웹사이트 구조를 selenium webdriver를 활용해서 크롤링해보겠습니다. 최근에 친할아버지께서 제게 사무용으로 저렴한 노트북을 알아봐달라고 하셨습니다. 그래서 오늘은 제가 컴퓨터 및 IT 관련 제품을 구매할 때 애용하는 다나와 웹사.. 2023. 1. 29.
[2023.01.28 기록] 팬케이크가 맛있었다 몇 주 전부터 팬케이크가 무지하게 땡겼다. 달콤한 시럽에 적신 퐁신퐁신하고 부드러운 팬케이크 한 조각이 혀에 닿는 그 찰나의 순간을 너무나 느끼고 싶었다. 그래서 오늘은 신사의 오리지널팬케이크 하우스에 갔다. 웨이팅을 한시간 넘게했다. 팬케이크는 무척이나 맛있었다. 평소에 나는 자기주장이 거의 없는 사람이다. 지인A: 뭐 먹을래? 이유남: 아무거나 상관없어 지인B: 뭐하고 놀까? 이유남: 넌 뭐하고 싶은데? 지인C: 갖고싶은거 있어? 이유남: 음... 딱히? 이렇게 써놓고 보니 심하게 꿀밤이 마려운 성격인 것 같다. 참고로 내 MBTI 유형은 ISFJ다. ISFJ 특징: 상대방의 입장에서 생각하고 행동하므로 대부분 상대방에게 맞춰주지만, 실은 정말 아무거나 괜찮아서 말하는 경우가 많다. 자기주장이 없다고.. 2023. 1. 28.
멀티프로세싱 (Multiprocessing) w/ Python 빅데이터로 작업할 때 성능을 개선하는 방법 사이즈가 큰 데이터로 작업할 때 대부분의 경우 많은 양의 계산이 필요합니다. 코드가 돌다가 중간에 에러가 나서 멈춘다던가 혹은 결과를 기다리는 데 오랜 시간을 소비할 때 받는 스트레스란... 머신러닝이나 딥러닝 관련 모델링 작업을 할 때 데이터량이 GB 단위라면 를 처리하는 것은 시간이 많이 걸리게 됩니다. 이처럼 복잡하고 연산이 많이 필요한 작업의 성능 속도를 향상시키는 방법에는 크게 두 가지가 있습니다: 1. Vertical Scaling (수직적 스케일링) Vertical Scaling은 단순하게 컴퓨팅 파워를 늘리는 것입니다. 더 좋은 그래픽 카드를 사용하거나 CPU의 성능을 높이는 등 더 나은 하드웨어를 구매하는 방식으로 작업 속도를 향상 시킵니다. 자.. 2023. 1. 26.
[API] DALL·E 2 Python으로 사용해보기 ChatGPT를 개발한 OpenAI는 작년 4월에 Text to Image 모델인 DALL·E 2도 공개한 적이 있습니다. 최근에 그림을 그려주는 AI와 사진을 아니메 (Anime) 풍으로 변환을 해주는 각종 필터가 유행을 하고 있어서 이미지와 관련된 AI는 놀랍게 느껴지진 않을 수 있습니다. 하지만 단순한 설명만으로 저작권 없는 고퀄리티 이미지를 생성할 수 있기 때문에 아트 업계 쪽에서는 큰 위협이 될 수 도 있습니다. 개인적으로 AI가 불러오는 disruptive innovation의 가장 첫 번째 분야는 예술이 아닐까 싶습니다. OpenAI 홈페이지에서 체험을 하시려면 아래의 링크를 참고하시면 됩니다 DALL·E Experiment with DALL·E, an AI system by OpenAI l.. 2023. 1. 25.
Python으로 메일 보내기 [@gmail] 오늘은 Python으로 이메일을 보내는 방법에 대한 정리를 해보려고 합니다. "굳이 왜 Python으로 메일을 보내는 법을 알아야 합니까?"라고 묻는다면, 다음과 같은 장점이 있습니다: 1. 많은 사람에게 쉽게 보낼 수 있습니다. 1,000명의 이메일이 있는 엑셀 파일이 있습니다. 모든 사람들에게 메일을 발송하려면 지루한 반복 작업을 계속해야 하지만, Python을 사용한다면 1,000명이든 10,000명이든 많은 사람들에게 메일을 보낼 수 있습니다. 실제로 우리가 받는 스팸메일은 이런 방식으로 보내집니다. 2. 스케줄러나 crontab을 활용하여 정해진 시간에 정기적으로 메일 발송을 할 수 있습니다. 혹시 매일 아침 8시에 특정 정보가 들어간 뉴스레터를 받아보고 계신가요? 특정시간에 정기적으로 발송되는.. 2023. 1. 21.
반응형