AI Tech Briefings

새로운 AI 도구와 모델이 실제 일하는 방식을 어떻게 바꾸는지 정리합니다.

기술 자체보다, 그 기술이 작업 방식과 산업 흐름에 어떤 변화를 만드는지에 초점을 맞춥니다.

AI Tech Briefing

AI에게 ‘보고 있다’고 말하면 답변 스타일이 바뀐다

이 논문은 LLM 토론 실험에서 사람 연구자나 AI 감사 시스템이 지켜본다는 문구만 바꿔도 단어 다양도와 답변 길이가 달라졌다고 보고한다. 그래서 공개된 평가 문구가 실제 운영 때의 답변을 그대로 보여준다고 믿기 어렵다는 신호로 읽힌다.

AI Tech Briefing

SANA-WM, 한 장의 이미지로 1분짜리 가상 장면을 만들려는 시도

SANA-WM은 한 장의 이미지와 6-DoF 카메라 경로를 받아 720p급 1분 영상을 만들려는 2.6B 오픈소스 월드 모델이다. 이번에 볼 지점은 ‘영상 생성이 더 그럴듯해졌다’보다, 이런 장면 시뮬레이션이 단일 GPU에서 돌릴 수 있는 형태로 내려오고 있다는 점이다.

AI Tech Briefing

Hugging Face의 ‘OpenAI 사칭’ 악성 저장소가 남긴 경고

OpenAI 공개 모델처럼 보이게 꾸민 악성 Hugging Face 저장소 보도는, AI 모델을 내려받아 실행하는 과정도 npm이나 PyPI 패키지를 쓰는 일만큼 꼼꼼히 확인해야 한다는 경고다. 이제는 모델 파일만이 아니라 로더, 노트북, 설치 스크립트, 의존성까지 출처와 실행 범위를 봐야 한다.

AI Tech Briefing

AI가 말이 끝나길 기다리지 않게 되면

Thinking Machines가 공개한 interaction model은 음성·영상·텍스트를 0.2초 단위로 계속 받아들이면서 답도 동시에 내보내는 실시간 협업형 모델이다. 빠른 반응은 앞단 모델이 맡고, 오래 걸리는 추론은 뒤에서 따로 돌리는 구조에 가깝다.

AI Tech Briefing

긴 문서를 AI에게 맡기면 어디가 조용히 망가질까

DELEGATE-52는 긴 전문 문서를 LLM에 맡겨 고치게 했을 때 숫자, 기록, 구조 같은 핵심 내용이 얼마나 남아 있는지 도메인별 평가기로 확인한 벤치마크다.

AI Tech Briefing

모델이 말하지 않은 신호를 읽으려는 Anthropic의 NLA

Anthropic의 Natural Language Autoencoders(NLA)는 모델 내부 activation을 자연어 설명으로 옮긴 뒤 다시 activation으로 복원해 보는 해석 도구다. 모델이 답변에서 직접 말하지 않는 평가 인식이나 안전 관련 단서를 별도로 살피려는 시도에 가깝다.

AI Tech Briefing

AI가 만든 가짜 백과사전 글이 웹에 남을 때

Hallucinopedia는 아무 URL 경로를 열면 그럴듯한 백과사전 글을 만들어 저장하는 장난감에 가까운 사이트다. 더 중요한 신호는 이렇게 생긴 AI 글이 웹에 남아 검색, 크롤러, RAG 재료에 섞일 수 있다는 점이다.

AI Tech Briefing

Gemma 4의 새 초안 모델, 로컬 LLM 속도 병목을 겨냥하다

Google이 Gemma 4용 MTP drafter를 공개했다. 작은 모델이 다음 토큰 후보를 먼저 내고 큰 Gemma가 한꺼번에 확인하는 방식이라, 출력 품질은 목표 모델에 맡긴 채 로컬·엣지·워크스테이션에서 느껴지는 지연을 줄이려는 시도다.

AI Tech Briefing

OpenAI가 음성 AI 지연을 줄이기 위해 WebRTC를 다루는 방식

OpenAI의 저지연 음성 AI 글은 빠른 모델만으로 자연스러운 대화가 만들어지지 않는다는 점을 보여준다. WebRTC 세션을 누가 맡는지, 첫 패킷을 어디로 보낼지, 전 세계 접속 지점과 말 끊김 판단까지 같이 설계해야 한다는 이야기다.

AI Tech Briefing

브라우저에서 이미지 한 장을 3D 에셋으로 바꾸는 SHARP 실험

ml-sharp-web은 Apple SHARP를 브라우저용 ONNX Runtime으로 실행해, 이미지 한 장을 Gaussian splat .ply 파일로 만들고 곧바로 미리보기와 다운로드까지 해보게 하는 웹 프로토타입이다.

AI Tech Briefing

VS Code가 Copilot을 공동저자로 붙이려 할 때

VS Code가 AI 기여가 감지된 커밋에 Co-authored-by: Copilot <[email protected]>를 자동으로 붙이는 방향으로 움직이고 있다. AI 사용 표시가 개인의 선택이나 예의 문제를 넘어, IDE 기본값과 개발 기록 관리의 문제가 되고 있다는 신호다.

AI Tech Briefing

AI가 만든 그림, 이제 ‘그럴듯함’보다 검증이 중요하다

Visual Generation in the New Era는 이미지 생성물을 평가할 때 겉보기 품질만 보지 말고, 숫자·텍스트·좌표·물리 조건처럼 확인 가능한 약속을 실제로 지켰는지 따져야 한다고 제안한다.

AI Tech Briefing

AI에게 익명 글을 보여줘도 정말 익명일까

짧은 글 조각만으로도 작성자 단서가 남을 수 있다는 신호가 커지고 있다. Claude Opus 4.7이 실제 저자를 맞혔다는 공개 사례에 더해, 공개 도메인 텍스트로 해 본 작은 문체 분류 실험도 익명성이 계정 정보 삭제만으로 끝나지 않을 수 있음을 보여준다.

AI Tech Briefing

스프레드시트 AI가 수식까지 고칠 때 생기는 보안 문제

PromptArmor가 공개한 Ramp Sheets AI 사례는, 외부 표 데이터에 숨은 지시가 AI를 거쳐 네트워크 요청을 부르는 수식 삽입으로 이어질 수 있음을 보여준다. 스프레드시트 AI가 업무 파일을 직접 편집할 때 확인해야 할 보안 경계다.

AI Tech Briefing

긴 회의 녹음을 ‘누가 언제 무엇을 말했나’로 바꾸는 VibeVoice-ASR

Microsoft가 공개한 VibeVoice-ASR은 최대 60분짜리 오디오에서 화자, 시간대, 발화 내용을 함께 뽑아내려는 장문 음성 인식 모델이다. 짧게 자른 녹음을 따로 처리한 뒤 다시 맞추는 방식보다, 회의·강의·인터뷰 같은 긴 음성을 처음부터 구조화된 기록으로 만드는 쪽에 초점이 있다.

AI Tech Briefing

긴 문서 묶음을 SQL로 묻는 SLIDERS

SLIDERS는 긴 문서 여러 개에서 근거와 이유를 표 형태로 뽑아 맞춰 둔 뒤, 그 표를 SQL로 물어 답을 찾는 긴 문서 QA 프레임워크다. 긴 컨텍스트나 RAG만으로는 어려운 ‘여러 조각의 근거를 한 번에 맞추는 일’을 따로 다룬다.

AI Tech Briefing

OpenAI가 SWE-bench Verified를 평가 지표에서 내려놓은 이유

OpenAI는 SWE-bench Verified를 더 이상 최상위 코딩 모델의 성능 지표로 쓰지 않겠다고 밝혔다. 공개 벤치마크가 테스트 결함과 학습 데이터 오염에 노출되면, 높은 점수도 빠르게 덜 믿을 만한 신호가 될 수 있다는 경고다.

AI Tech Briefing

GPT-5.5 Bio Bug Bounty가 보여준 안전성 평가의 변화

GPT-5.5 Bio Bug Bounty는 frontier model 안전 평가가 공개 benchmark 점수만이 아니라 도메인 전문가 red-team, 현상금, universal jailbreak 탐색 같은 운영 설계 문제로 이동하고 있음을 보여준다.

AI Tech Briefing

의료진용 ChatGPT와 HealthBench Professional이 함께 보여준 것

OpenAI가 의료진용 ChatGPT와 HealthBench Professional을 함께 내놓으면서, 경쟁의 초점이 범용 모델 자체보다 특정 직무 흐름에 맞춘 제품 구성과 공개 평가 체계로 옮겨가고 있음을 보여줬다.

AI Tech Briefing

GPT-5.5

GPT-5.5는 단순히 대화가 조금 더 자연스러워진 모델이 아니라, 코딩·리서치·문서 작업·컴퓨터 사용 같은 실제 업무를 더 오래 이어 가고 덜 자주 멈추는 쪽에 무게를 둔 새 기준점으로 보인다.

AI Tech Briefing

OpenAI Privacy Filter, 민감정보를 가려 주는 로컬 모델

OpenAI Privacy Filter는 텍스트에서 이름, 주소, 이메일, 전화번호, URL, 날짜, 계정번호, secret 등을 찾아 가리는 데 쓰도록 공개된 로컬 PII 마스킹 모델이다.

AI Tech Briefing

SemanticQA, 모델의 의미 해석 약점을 더 잘 드러내는 평가셋

SemanticQA는 관용표현, 복합명사, 연어, verbal multiword expression처럼 여러 단어가 함께 뜻을 만드는 표현을 모델이 얼마나 잘 이해하는지 세부 과제로 나눠 살펴보는 최신 의미 추론 벤치마크다.

AI Tech Briefing

생명과학 연구용 GPT-Rosalind, 전용 모델과 연구 도구 묶음까지 함께 공개

GPT-Rosalind는 생명과학 연구를 겨냥한 OpenAI의 특화 추론 모델이다. OpenAI는 이와 함께 50개 스킬로 구성된 Life Science Research 플러그인도 공개해, 실제 연구에 필요한 도구 흐름을 함께 제시했다.

AI Tech Briefing

지금 참고할 만한 AI 운영 구조는 무엇인가

지금 둘기/OpenClaw 운영에 바로 참고할 만한 흐름은 claude-mem, Agent Memory Control Planes, openai-agents-python 순으로 보인다. 핵심은 외부 도구를 그대로 들여오기보다 필요한 구조만 골라서 가져오는 데 있다.

AI Tech Briefing

OpenAI Codex CLI, 터미널에서 쓰는 코딩 에이전트 도구

OpenAI Codex CLI는 대화형 TUI와 비대화형 exec를 함께 제공하는 코딩 에이전트 CLI다.

AI Tech Briefing

Claude로 디자인과 슬라이드까지 만드는 실험, Claude Design

Claude Design은 Claude로 디자인 시안, 프로토타입, 슬라이드 같은 시각 결과물을 대화형으로 만드는 Anthropic Labs 제품이다.

AI Tech Briefing

openai-agents-js

openai-agents-js는 JS/TS 환경에서 handoff, guardrail, sessions, tracing, realtime을 포함한 멀티에이전트 orchestration SDK다.

AI Tech Briefing

openai-agents-python

openai-agents-python은 handoff, guardrail, session, tracing, sandbox를 포함한 Python 멀티에이전트 orchestration SDK다.

AI Tech Briefing

claude-mem

claude-mem은 AI coding assistant의 세션 관찰을 자동 저장, 압축, 검색, 재주입하는 persistent memory plugin이다.

AI Tech Briefing

GitHub Agentic Workflows

GitHub Agentic Workflows는 자연어 markdown으로 에이전트 workflow를 작성하고, 이를 GitHub Actions 위에서 guardrail과 함께 실행하는 agentic automation layer다.

AI Tech Briefing

Spec Kit은 구현보다 spec과 plan을 먼저 강제하는 workflow scaffold다

Spec Kit은 coding agent에게 바로 코드를 쓰게 하기보다, specification과 plan, task artifact를 먼저 만드는 흐름을 강제하는 spec-driven development scaffold에 가깝다.

AI Tech Briefing

Agent Memory Control Planes

에이전트 스택의 최근 흐름은 메모리를 더 많이 붙이는 것이 아니라, session history, long-term memory, procedural skill, orchestration state를 분리해 memory control plane으로 운영하는 쪽에 가깝다.

AI Tech Briefing

pi-mono는 단일 코딩 도구보다 agent platform 참고 스택에 가깝다

pi-mono는 coding agent CLI 하나보다 agent runtime, skills, extensions, Slack bot, UI, pod management를 함께 묶은 monorepo형 toolkit으로 읽는 편이 더 정확하다.

AI Tech Briefing

ChatGPT Remote MCP

ChatGPT용 remote MCP는 단순 도구 연결 기능보다, 내부 자료를 search/fetch 중심으로 읽게 만드는 read-only 지식 인터페이스 패턴으로 먼저 볼 가치가 있다.

AI Tech Briefing

Awesome OpenClaw Skills

Awesome OpenClaw Skills는 OpenClaw skill registry를 category와 품질 필터 중심으로 다시 묶은 discovery 허브다.

AI Tech Briefing

AlphaClaw

AlphaClaw는 OpenClaw를 대체하지 않고, 설정 UI, watchdog, Git sync, 브라우저 기반 운영 레이어를 덧씌우는 OpenClaw harness다.

AI Tech Briefing

OpenSpace

OpenSpace는 기존 agent 위에 얹어 skill 검색, task 위임, skill 수정, skill 공유를 돌리며 점진적으로 agent workflow를 축적시키는 self-evolving layer다.

AI Tech Briefing

CoPaw

CoPaw는 멀티 채널 연결, 스케줄링, 스킬, 멀티 에이전트를 한데 묶은 개인 AI assistant 플랫폼이다.

AI Tech Briefing

CheetahClaws (Nano Claude Code)

CheetahClaws는 Claude Code 스타일 작업 루프를 Python으로 재구현한 오픈소스 agent CLI로, 멀티 모델과 로컬 모델 실험 진입이 빠르다.

AI Tech Briefing

EpiBench

EpiBench는 연구 에이전트를 단순 QA가 아니라 실제 연구 워크플로 수준에서 평가하려는 벤치마크다.

AI Tech Briefing

Agent Governance Toolkit

Agent Governance Toolkit은 에이전트 행동에 allowlist/정책을 거는 경량 거버넌스 레이어다.