전체 글 55

멀티 에이전트 Magentic-one 논문 리뷰

논문 : https://www.microsoft.com/en-us/research/uploads/prod/2024/11/Magentic-One.pdf 멀티 에이전트 Magentic-ONE1. 소개Magentic-One은 Microsoft Research에서 개발된 복잡한 문제 해결을 위한 다중 에이전트 시스템입니다. 이 연구는 Magentic-One의 일반주의적 접근과 다양한 도메인에서의 적용 가능성을 강조합니다. 본 리뷰에서는 논문의 주요 내용과 성능 평가, 한계와 위험 완화 전략 등을 분석하고, Magentic-One의 발전 가능성을 살펴보겠습니다. Magnetic-One:Magnetic-One은 범용 멀티 에이전트 팀으로, 오픈 소스로 구현되어 있습니다. 이 팀은 Coder, Computer Ter..

[AI]/논문 리뷰 2024.11.15

MS - Magentic-one 다중 에이전트 시스템 마젠틱 원

Magentic-one목차Magentic-One 소개Magentic-One의 비전Magentic-One의 주요 특징다중 에이전트 아키텍처오케스트레이터의 역할Magentic-One의 에이전트들오케스트레이터웹서퍼(WebSurfer)파일서퍼(FileSurfer)코더(Coder)컴퓨터터미널(ComputerTerminal)Magentic-One의 복잡한 작업 해결 방법실제 응용 사례성능 및 평가벤치마크: GAIA, AssistantBench, WebArena결과 및 통찰한계 및 도전 과제현재의 한계위험 완화 전략미래의 가능성과 개선 방향모듈식 확장향상된 학습 능력결론1. Magentic-One 소개Magentic-One은 복잡한 작업을 해결하기 위해 설계된 일반주의 다중 에이전트 시스템입니다. Microsoft ..

카카오 부트캠프 생성형 AI 1기 후기

부트캠프를 선택할 때, 여러분이 단지 수업만 듣는 것이 아니라 다양한 경험을 통해 성장할 수 있는 환경을 원할 거예요. 카카오테크 부트캠프는 바로 그런 분들을 위해 준비된 곳입니다. 특히 필자인 저도 비전공자 출신으로 부트캠프에 참여하고 있지만, 다양한 지원 혜택 덕분에 큰 어려움 없이 교육을 잘 듣고 있습니다. 여러분도 비전공자라도 충분히 도전할 수 있는 환경이 마련되어 있으니 망설이지 말고 참여해 보세요!카카오테크 부트캠프는 바로 그런 분들을 위해 준비된 곳입니다. 오늘은 카카오테크 부트캠프에서 제공하는 다양한 교육 관련 지원 혜택을 소개하려고 해요. 학습에 대한 열정은 물론, 학습 외 시간도 알차게 보낼 수 있는 다양한 혜택들이 가득하답니다! 가장 큰 장점은 판교에 오프라인 교육장이 있다는 점이에요..

OpenAI의 Swarm Framework의 목적과 이해.

SWARMSWARM의 탄생2024년 10월 공개된 다중 에이전트 AI 시스템의 개발 및 관리를 간소화하도록 설계된 새로운 오픈소스 프레임워크.SWARM과 유사 ai 도구의 차이(API, Completions, Custom GPTs, Functions, Assistants)1. 다중 에이전트 협업 * Swarm: 여러 AI 에이전트가 상호 작용하고, 소통하고, 협력하여 문제를 공동으로 해결할 수 있도록 합니다. 각 에이전트는 특정 작업을 전문으로 하여 복잡한 프로젝트를 처리하는 데 있어 효율성과 효과성을 개선할 수 있습니다. * CustomGPTs & API Assistants : 일반적으로 단일 에이전트 상호 작용이 포함되며, 여기서 하나의 모델이 다른 에이전트와 협업하지 않고 입력을 처리하고 출력을..

멀티 에이전트 시스템- SWARM

llm을 활용할 수 있는 새로운 프레임 워크 openAI의 SWARM이 공개되었는데 공개된지 한 달이 되지 않았는데 많은 사람들이 관심을 가지고 있습니다.  SWARM의 주요 특징1. 자율성각 개체가 독립적으로 행동하며, 서로 간에 상호작용을 통해 전체 시스템의 목표를 달성합니다.마치 회사에서 하나의 목표를 위해 각자의 역할을 수행하는 모습과 같습니다. 2. 확장성개체 수가 늘어나더라도 시스템이 원활하게 작동할 수 있음. 3. 강건성일부 개체가 고장 나더라도 전체 시스템에 큰 영향을 주지 않고 계속 작동이 가능함. 4. 핸드오프에이전트가 자신이 맡은 작업을 마치면, 다음 단ㄱ계의 작업을 다른 에이전트에게 작업을 넘김 5. 컨텍스트 변수에이전트 간 정보를 공유하기 위한 변수로, 작업중에 갱신되어 여러 에이..

NLP 파이프라인 구축

자연어 처리 NLP 파이프라인을 구축하고 성능을 평가하는 작업학습목표를 읽고 계획 수립 단계 제안 순서를 따라 작업하면 실습이 편합니다.핵심 목표NLP 파이프라인을 통해 텍스트 데이터를 전처리특정 NLP 태스크를 수행(예시_ 감정분석, 텍스트 분류)모델 성능 평가 및 개선 방안 모색학습 계획 수립 단계 제안1. 문제정의 - NLP 파이프라인의 목적과 목표 설정2. 솔루션 도출 - 파이프라인의 구성 요소 및 사용 기술 정의3. 설계 - 파이프라인의 전체 구조 설계4. 데이터 수집 및 준비5. 데이터 전처리 : 텍스트 정제, 토큰화, 불용어 제거, 어간추출 등6. 텍스트 임베딩 : Word2Vec, BERT 등7. 모델 선택 - 감정분석, 텍스트 분류등을 수행할 태스크에 적합한 모델 선정8. 모델학습 - 학..

F5 TTS 사용법

TTS란?Text To Speech의 줄임말이며 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해 내는 것으로, 성우 없이도 단어와 문장의 음성을 쉽게 소리 내는 것이 특징인 기술. 일반적으로 TTS는 다음과 같은 과정을 거칩니다.1. 텍스트 전처리  텍스트를 받아 문장 구조와 발음 기호(phonemes)로 변환하는 과정. 이를 통해 기계가 텍스트를 음성 신호로 바꿀 수 있도록 함2. 음소변환텍스트의 각 부분을 음소로 변환하여 해당 소리로 변환할 수 있도록 준비. 이 단계에서 문장 구조, 억양, 강세 등이 고려됨3. 음성합성 음소를 실제 음성 신호로 합성하는 단계. 주로 다음 두 방식이 사용된다.파형 기반 합성 : 미리 녹음된 음성 조각을 조합하여 음성을 생성하는 방식신경망 기반 합성 : 딥러닝 모델을 사..

Llama 3.2 모델 출시

오픈소스 LLM모델로 유명한 Llama 시리즈가 몇 달 전 3.1을 출시했는데 더욱 가벼워진 3.2로 돌아왔습니다.3.2 모델은 경량화된 1B, 3B 모델을 포함하여 개인 사용자의 접근성을 넓혔습니다. 11B, 90B 모델은 멀티모달에 특화되어있지만 본 포스팅에서는 경량화된 1B, 3B의 이야기만 다룹니다. 멀티모달에 관심있으신 분은 사진을 클릭해서 내용을 확인하세요   Download models를 누르면 이러한 화면이 나타나는데, 내용을 모두 입력하면 심사를 거친 뒤 48시간 동안 사용가능한 코드를 발급받게 됩니다.이후 과정은 간단합니다. 신청을 하면 자세히 알려주는데 대략의 순서는 다음과 같습니다. 1. Llama stack 설치2. 원하는 버전 선택3. 발급받은 키 입력 위 과정을 거치면 사용자 ..

[CNN] 필기체 숫자 분류 딥러닝 모델

CNN 딥러닝을 활용한 간단한 사이드 프로젝트 - 필기체 숫자 분류CNN의 기초 다지기로 많이 선택하는 주제입니다.간단한 코드들을 제공하고 추가 확장목표를 수립합니다.결과물 GITHUB에서 전체 코드 확인이 가능합니다.1. 프로젝트 개요이 프로젝트는 MNIST 데이터셋을 활용하여 필기체 숫자를 분류하는 딥러닝 모델을 구현하는 것을 목표로 합니다. CNN(Convolutional Neural Network)을 기반으로 하는 이 모델은 이미지에서 중요한 특징을 자동으로 추출하고, 이를 바탕으로 숫자를 분류하는 역할을 합니다.CNN은 이미지와 같은 2차원 데이터를 처리하는 데 특화된 딥러닝 모델입니다. 일반적인 신경망(ANN)과 달리, CNN은 이미지의 공간적인 패턴을 효과적으로 학습할 수 있습니다. 예를 ..